美国互联网(互联网行业分析报告)OpenAI公司发布的全新的Sora文生视频模型,可以根据用户输入的文本指令,一次生成60秒的长视频,且视频的画面精细度、流畅度超越了以往的文生视频模型。由于Sora能够模拟对世界状态产生简单影响的行为,有分析人士认为,这将文生视频能力推向了全新的高度。
在Sora发布之后,有博主对当前市场上其他主流文生视频产品做了对比评测,在对Sora、Pika、Runway和Stable Video四个模型输入了相同的提示词后,Sora在视频生成质量和时间上均对同行“降维打击”,其更加清晰连贯、符合描述。
在OpenAI官方的技术报告中,对Sora的定位为“作为世界模拟器的视频生成模型”。之前几款主流模型生成的视频时长仅在20秒以内,Sora不仅能够深入理解用户提示,还学会了物理世界的部分规律,一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影,Sora还可在单个视频中设计出多个镜头
以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是“真实”的。
业内人士表示,虽然OpenAI表示当前Sora仍有弱点,例如难以准确模拟复杂场景中的物理现象,可能无法理解具体的因果关系,但从当前展示的效果来看,Sora显著领先于其他文生视频模型,推动AI视频生成“进入了一个全新的时代”。