Kainy的订阅号

【标题】OpenAI的Sora模型：如何做到如此强大？

【核心内容】

OpenAI发布了名为"Sora"的文生视频大模型，可以生成60秒的高清视频，展现出优秀的光影关系、物理遮挡和碰撞关系。
Sora模型采用了扩散模型的思路，相较于传统的GAN模型，在生成多样性和训练稳定性方面有更好的表现。
Sora模型采用了Transformer架构，与主流的视频生成模型采用的U-Net架构不同。
OpenAI开发了视频压缩网络，将视频降维到潜空间，以减小Transformer架构带来的计算量压力。
Sora模型的训练方式为原始尺寸、时长训练，相较于截取尺寸训练，能够更好地自定义时长和视频尺寸，以及提高取景和构图质量。
OpenAI在训练和输入端都加入了一些巧思，如给训练素材加上高质量文本描述和利用GPT进行用户输入提示词的扩写，以提高生成效果。

【评论内容】

小红书用户：OpenAI的Sora模型真是太强大了！效果看起来超级真实，简直就是机器学会了“成为一个人”。这样的技术，以后是不是可以用来生成电影了？
微信公众号读者：OpenAI的Sora模型确实很厉害，但是他们的技术积累也是非常重要的。他们先在大语言模型上取得了成功，然后再借鉴经验开发出了Sora模型。其他竞争对手要想超越OpenAI，恐怕还有很长的路要走。

" 【标题】OpenAI 全新文生视频大模型 Sora：效果惊艳，背后技术一览无余

【核心内容】

Sora 模型简介：OpenAI 发布的全新文生视频大模型，可以生成最长 60 秒的高清视频，画面光影关系、物体间物理遮挡和碰撞关系表现出色，镜头丝滑可变。
Sora 模型技术分析：
- 扩散模型：相较于 GAN 模型，在图像和视频生成领域具有更高的天花板，因为扩散模型更像是机器学会了 “ 成为一个人 ”。
- Token 与 Transformer 架构：OpenAI 成功地将大语言模型经验应用于 Sora 模型，采用了 Transformer 架构，实现了高效的视频生成。
- 降维与计算成本：OpenAI 通过开发视频压缩网络，将视频降维到潜空间，有效减小计算成本。
- 训练路线选择：OpenAI 采用了原始尺寸、时长训练，而非常用的截取尺寸训练。
- 细节优化：OpenAI 在 Sora 模型上加入了一些巧思，如利用 DALL·E 3 的 re-captioning 功能提高输出视频质量，利用 GPT 对用户输入的提示词进行详尽扩写。

【评论内容】小红书用户：哇，Sora 模型太惊艳了！OpenAI 真的是科技巨头，竟然能打造出这么强大的文生视频模型。我们的国产技术也在不断进步，相信未来一定会走在世界前列！

微信公众号读者：看来 OpenAI 又在人工智能领域树立了一个新的里程碑。我国的科技公司也要加油啊，争取在关键技术领域取得更多突破！不过，这个 Sora 模型到底有多强呢？有没有可能超过 GPT、DALL·E 这些前辈呢？拭目以待！"