1. ai生成图片的进化永不停止。从GAN到CNN,再到Lantern Space,再到U-Net,以及Sora的纯Transformers架构,效果越来越惊艳。
  1. 很多东西需要实际操作才能下结论。《Scalable Diffusion with Transformers》论文刚出的时候收到群嘲,说是灌水。直到Sora一鸣惊人才受到大家的重视,要知道论文发表于2022年,Sora在2024年开年王炸。(2023年这一年大家都在折腾U-Net)
  2. 意料之外,情理之中。Sora提出的时空补片(Space Patch)真是一个创新,意料之外,情理之中。论文认为使用CNN的做法,即收集偏置的做法(acquisition bias),并不比纯Transformer的做法效率高,效果好。而Trasformer通用架构的好处,就是可以集成很多现成的研究成果,比如类似informer的稀疏注意力等等。
  3. 时间的维度。最近在研究time series模型,感觉Space Patch在空间这一维度信息基础上,又增加了时间的维度信息,而input升维这一操作,在Transformer里再合适不过了。这样也彻底转化了视频生成的思路,原来靠图片生成单帧,再合并帧为视频,想尽各种办法在condition层面保证图片稳定性。而现在直接在训练的最小输入单位,Space Patch(也可以理解为token)本身就包含了时间,空间,像素的信息,可以无缝直接生成视频。
  4. 巨人的肩膀。当然LatentSpace技术可以继续使用。SpacePatch转化为SpaceLatentPatch,等价于StableDiffusion使用PixelSpace=>LatentSpatch。当然这个Vae过程可以做很多优化。技术永远不是一蹴而就的,ai领域需要大量的前人的肩膀,就比如Transfoemer也是一路从RNN,RNN变体,Seq2Seq,Attention一路进化而来
  5. 维度的思考。维度是在ai领域永恒的话题,遇事不决,特征不明,升维降维就完事了。Transform为什么是版本答案,因为万物皆可Embedding,笑~。只要信息是可编码的,关联性的,非混沌的,就一定有一种方式可以Embedding,再用transformer去找寻这一规律。从Stable Diffusion到Sora,有点符合我们认知物理规律的过程。从最开始的经典物理一维的小滑块,到二维的牛莱公式,以及对于三维空间的计算,四维空间的想象,这也在ai领域一一体现,也越来越坚信随着技术的迭代,算力的进化,ai对真实世界的模拟,越来越趋近真实。

阅读更多>>>

sora 开放申请拉,链接🔗在下方,自行申请哈。[呲牙]

sora申请链接:
网址:https://openai.com/form/red-teaming-network

sora配音(elevenlabs):https://elevenlabs.io/dubbing
感兴趣的可以申请看一下,通过了记得报喜喔[呲牙]

当地时间2月15日,OpenAI发布“文生视频”模型Sora,同时发布了由它生成的48段视频。生成视频的高度逼真、高质量和时长突破,立刻在全网引起了轰动。

【专题】Sora折叠虚实

肝:早睡早起,戒高油盐食物,调整心态
肾:日常保证摄入足量淡盐水(6%),黑色食物摄入,保持运动
胃:减少负能量,保证居住环境舒适,保持积极情绪与良好身材,远离精加工食物
肺:远离香烟油烟与粉尘环境,学习腹式呼吸法,不喝凉水,保持有氧运动
护肤:肤质区分方法:洗脸后半小时鉴别面部情况,无感觉为中性,有油腻感为油性;早凉晚温,只需要晚上使用洗面奶;油性皮肤不要过度清洁,保持规律作息和运动
心脏:夏天避免暴汗,多吃苦物
作息:睡眠时间>7h,建立睡觉和床的联系,床只睡觉,睡前20min远离电子产品,可以定时放些舒缓音乐
心态:不要和别人较劲;学会放下,不要纠结过去;学会拒绝
运动:每周150-300min中高强度运动

阅读更多>>>