有没有人解释下Sora原理?
- ai生成图片的进化永不停止。从GAN到CNN,再到Lantern Space,再到U-Net,以及Sora的纯Transformers架构,效果越来越惊艳。
- 很多东西需要实际操作才能下结论。《Scalable Diffusion with Transformers》论文刚出的时候收到群嘲,说是灌水。直到Sora一鸣惊人才受到大家的重视,要知道论文发表于2022年,Sora在2024年开年王炸。(2023年这一年大家都在折腾U-Net)
- 意料之外,情理之中。Sora提出的时空补片(Space Patch)真是一个创新,意料之外,情理之中。论文认为使用CNN的做法,即收集偏置的做法(acquisition bias),并不比纯Transformer的做法效率高,效果好。而Trasformer通用架构的好处,就是可以集成很多现成的研究成果,比如类似informer的稀疏注意力等等。
- 时间的维度。最近在研究time series模型,感觉Space Patch在空间这一维度信息基础上,又增加了时间的维度信息,而input升维这一操作,在Transformer里再合适不过了。这样也彻底转化了视频生成的思路,原来靠图片生成单帧,再合并帧为视频,想尽各种办法在condition层面保证图片稳定性。而现在直接在训练的最小输入单位,Space Patch(也可以理解为token)本身就包含了时间,空间,像素的信息,可以无缝直接生成视频。
- 巨人的肩膀。当然LatentSpace技术可以继续使用。SpacePatch转化为SpaceLatentPatch,等价于StableDiffusion使用PixelSpace=>LatentSpatch。当然这个Vae过程可以做很多优化。技术永远不是一蹴而就的,ai领域需要大量的前人的肩膀,就比如Transfoemer也是一路从RNN,RNN变体,Seq2Seq,Attention一路进化而来
- 维度的思考。维度是在ai领域永恒的话题,遇事不决,特征不明,升维降维就完事了。Transform为什么是版本答案,因为万物皆可Embedding,笑~。只要信息是可编码的,关联性的,非混沌的,就一定有一种方式可以Embedding,再用transformer去找寻这一规律。从Stable Diffusion到Sora,有点符合我们认知物理规律的过程。从最开始的经典物理一维的小滑块,到二维的牛莱公式,以及对于三维空间的计算,四维空间的想象,这也在ai领域一一体现,也越来越坚信随着技术的迭代,算力的进化,ai对真实世界的模拟,越来越趋近真实。