上期文章中我们聊到了Sora的厉害之处——它具备时空一致性,本期我将继续从一名科技行业研究员的视角和大家聊聊Sora到底为什么这么厉害?一起来看看吧!
Sora为什么这么厉害——“前人的肩膀”
Sora是建立在学术界大量前置研究基础之上的,最早在21年,ViT[1]就把Transfomer[2]引入到了CV(计算机视觉)领域,但是当时只是用它去挑战过去物体检测、物体分类这些传统的视觉任务。
视频生成大家已经不再使用像GAN[3]这些方法了,而是在广泛使用Diffusion Model(扩散模型),其原理其实非常易于理解——它是从自然界广泛存在的“扩散过程”里获得了灵感,就像在一杯白水里滴一滴墨水,它会逐渐扩散然后混合均匀。通俗地说,这种方法就是你给我一张图片,如果我不断地给图片加噪声,最后它会变成一个没有意义的、完全是噪声的图片;然后反向来看,它就是从一张没意义的图片变成了一张有意义的图片,Diffusion Model就是学习了这个反向的过程。
过去Diffusion Model用的是卷积神经网络——U-Net[4],去年年初发表的一项叫DiT的工作,在Diffusion Model中用Transfomer替换了U-Net,然后发现这样做会具有非常好的可拓展性——只要提高计算量,生成图片的质量就会变好。
Sora为什么这么厉害——进阶的Patch
Sora就是在DiT这项工作的基础上开展的,我认为Sora魔力的根本来源是它用了一种新的设置Patches(视觉补丁,最基本的数据单元)的方法。
我们可以这样粗浅地理解过去的视频生成模型:它是由两部分构成的,一部分用来生成一些关键帧的图像,另一部分用来生成中间的图像去描述连续的运动。
后来大家想能不能把时空关系的信息直接丢到模型里去训练?谷歌之前的一项工作就在U-Net的基础上做了这种尝试,效果非常好;Sora其实就是在DiT的基础上也做了这种尝试。
不管是ViT还是DiT,怎么设置Patches都是一个非常重要的工作——Patch之于视觉就像Token[5]之于文本,都是最基本的数据单元。过去不管怎么切,Patches都是二维的,不包含时空关系,Sora却把时空关系包含进去了,它的Patches是三维的。
[1] ViT(Vision Transformer)是近年来在图像分类领域中取得显著效果的一种算法,其思维是将图像数据转换成一维的序列数据,而后进行处理和分类。
[2] Transformer模型是由谷歌公司提出的一种基于自注意力机制的神经网络模型,用于处理序列数据。相比于传统的循环神经网络模型,Transformer模型具有更好的并行性能和更短的训练时间,因此在NLP(自然语言处理)领域中得到了广泛应用。
[3] GAN(生成式对抗网络)是一种通过两个神经网络实现的图像处理技术:生成器(Generator)和判别器(Discriminator),生成器负责生成图像或视频,判别器负责判断生成的图像或视频是否真实,二者通过训练互相竞争,最终产出更逼真的图像或视频。
[4] U-Net是一个做分割的卷积神经网络,它将图像作为输入,并将每个像素分类输出,给出缩放后的图像。
[5] Token可以被定义为文本中的最小单位或基本元素,可以是单词、字或词根。
图:Sora把视觉数据转化成Patches的过程
来源:Sora technical report
正因为Sora的Patches里包含了时空关系,所以当训练的计算量大到一定阈值以后,模型便开始表现出稳定的时空关系。Sam Altman前两天发推说:“Scaling laws are decided by god; the constants are determined by members of the technical staff”,这句话的意思是:Sora的原理还是大家都知道的这些原理,但只要服从于Scaling laws,当Sora的研究人员在设置超参数Patch的时候用了新的技巧,模型能力就发生了根本性的变化。
本期我跟大家简单介绍了Sora时空一致性的根本来源——新的Patch设置方法,那么有可能构建出一个无限逼近现实的虚拟世界的Sora,将会给我们带来怎样的影响?我们下期继续探索。
往期回顾
相关基金
聚投AI行业龙头$前海开源人工智能主题混合(OTCFUND|001986)$
AI产业链+消费电子$前海开源沪港深乐享生活(OTCFUND|004320)$
#聚投半导体产业链$前海开源沪港深新硬件A(OTCFUND|004314)$
半导体材料+设备$前海开源高端装备制造混合(OTCFUND|001060)$
AI+信创软硬件$前海开源沪港深强国产业混合(OTCFUND|004321)$
注:基金投资方向来源于基金2023年四季报,截至2023年12月31日,不代表最新持仓。市场有风险,投资须谨慎。
前海开源沪港深乐享生活、前海开源沪港深新硬件、前海开源高端装备制造混合、前海开源人工智能主题混合、前海开源沪港深强国产业风险等级为中风险,评级来自银河证券,适合风险等级为C3及以上投资者。不同的销售机构采用的评价方法不同,基金法律文件风险收益特征表述与销售机构基金风险评价可能存在不一致的风险,投资人在购买基金时需按照销售机构的要求完成风险承受能力与产品风险之间的匹配检验。
风险提示:本材料仅供参考,不构成任何投资建议,不作为任何法律文件。基金管理人承诺以诚实信用 勤勉尽责的原则管理和运用基金资产,但不保证基金一定盈利,也不保证最低收益。基金的过往业绩并不预示其未来业绩表现,基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证。我国基金运作时间较短,不能反映股市发展的所有阶段。投资者在进行投资前请仔细阅读基金的《基金合同》、《招募说明书》、《基金产品资料概要》等法律文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应。基金管理人可能会根据市场情况在符合《基金合同》约定的前提下调整投资策略和资产配置比例,导致投资收益不及预期。市场有风险,投资须谨慎。市场观点具有时效性。