您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:大语言模型最牛的是,它不是填空机:而是能完整地理解这个世界的知识 - 发现报告
当前位置:首页/会议纪要/报告详情/

大语言模型最牛的是,它不是填空机:而是能完整地理解这个世界的知识

2024-02-16-未知机构E***
大语言模型最牛的是,它不是填空机:而是能完整地理解这个世界的知识

大语言模型最牛的是,它不是填空机:而是能完整地理解这个世界的知识。 这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象, 最重要的是Sora的技术思路完全不一样,因为这之前我们做视频做图用的都是Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。 大语言模型最牛的是,它不是填空机:而是能完整地理解这个世界的知识。 这次很多人从技术上、从产品体验上分析Sora,强调它能输出60秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象, 最重要的是Sora的技术思路完全不一样,因为这之前我们做视频做图用的都是Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。 现在所有的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。 但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。 所以我理解这次OpenAl利用它的大语言模型优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力, 这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。