Kainy的订阅号

【标题】AI视频生成技术卷起风云，阿里发布EMO系统

【核心内容】

阿里巴巴发布最新的AI视频生成系统EMO，可以通过输入图像和语音音频生成具有表现力的面部表情和头部姿势的视频。
EMO使用预训练的音频编码器处理音频信号，提取节奏、音调和发音等特征，以驱动视频中角色的面部表情和头部动作。
EMO的骨干网络采用类似于Stable Diffusion的UNet结构，通过接收多帧噪声并尝试去噪成连续的视频帧。
EMO使用两个主要的注意力机制（Reference-Attention和Audio-Attention）来保持角色身份的一致性和调制角色的动作。
EMO在生成自然、表现力强的视频方面胜过其他方法，但生成视频的耗时较长，计算成本较高，可能会产生伪影。
EMO难以处理音调强烈的人声音频，可能影响视频的连贯性和质量。

【评论内容】小红书用户：哇！EMO系统真是太厉害了！能让蒙娜丽莎念莎士比亚的经典独白，还能让小李子来段Rap，太有趣了！不过耗时长和计算成本高可能是它的瑕疵，希望未来能更快更便宜！微信公众号读者：这个EMO系统确实很牛，但是生成视频的耗时和计算成本是个问题。而且，它无法处理长时间的音频，可能影响视频的质量。不过，能够让已故的亲人留在数字世界里，这是AI技术给我们带来的最大价值。

" 【标题】AI 视频生成技术的新突破：阿里巴巴 EMO 系统解析

【核心内容】

阿里巴巴发布音频驱动的 AI 肖像视频生成系统 EMO，能通过单一参考图像和语音音频生成具有表现力的视频。
EMO 采用了预训练的音频编码器和 ReferenceNet 技术，以及 UNet 结构。
研究团队打造了一个庞大的音视频数据集，包含 250 小时的视频和 1.5 亿张图片。
EMO 模型在生成自然、表现力强的视频方面优于其他方法，但存在一些瑕疵，如生成视频时耗时较长、计算成本高、可能产生非目标身体部位的动作等。
AI 视频生成技术的发展预示着行业格局的重大变革，Sora、LTX Studio 等产品展现了 AI 视频生成的强大潜力。

【评论内容】小红书用户：哇，EMO 系统真的太厉害了，竟然能让画里的蒙娜丽莎唱歌，小李子来段 Rap！感觉 AI 视频生成技术真的是越来越厉害了，不知道未来还能做出什么神奇的东西出来呢？

微信公众号读者：这篇报道让我对 AI 视频生成技术有了更深入的了解。虽然 EMO 系统在生成视频方面还存在一些问题，但它的潜力无疑是巨大的。想象一下，未来我们不仅可以欣赏到更多精美的 AI 视频，还可以在影视制作、翻译等领域发挥巨大作用。科技改变生活，让人期待不已！"