国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap

发表时间:Fri Mar 01 2024 14:14:31 GMT+0800 (中国标准时间)

appsolution https://mmbiz.qpic.cn/sz\_mmbiz\_jpg/ePTzepwoNWPXumQ5F6DdQ1Ckic7vd1bRldZrwTSelV9dWpyA6bf0NB3yGpQ0SkvTee1LRUcd4yfEnNA0ibshFibhg/0?wx_fmt=jpeg

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\0.gif)

才几个月的功夫，AI 视频生成技术就像是吃了兴奋剂一样，卷得飞起。

Sora 的余温尚未过去，阿里就带着它最新的 AI 视频生成研究成果 EMO 来「炸街」了。

谁能想到画里的蒙娜丽莎能用磁性的声音，给你念一段莎士比亚的经典独白。

正值颜值巅峰的小李子给你来段 Rap，用节奏征服你的心。

《狂飙》里只遵守婚姻法的反派大佬，化身为法外狂徒张三，在线给你普法。

哥哥张国荣也可以用陈奕迅的嗓音唱歌，虽然粤语口型有点出入，但魅力依旧不减当年。

主创团队还埋了个小彩蛋，和春节假期发布的 Sora 来了波精彩联动。

更多精彩案例，欢迎点击下方视频号👇

此 EMO 非彼 emo

那这些 AI 视频是怎么做出来的呢？

EMO 是阿里巴巴集团智能计算研究院开发的音频驱动的 AI 肖像视频生成系统。

此 EMO 非彼 emo，它能够通过输入单一的参考图像和语音音频，生成具有表现力的面部表情和各种头部姿势的视频。

那 EMO 是怎么做到的呢？首先，它使用预训练的音频编码器处理输入的音频信号，提取节奏、音调和发音等特征，以驱动视频中角色的面部表情和头部动作。接着使用 ReferenceNet 从参考图像中提取特征，以保持角色身份的一致性。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\1.jpeg)

至于 EMO 的骨干网络，它采用了类似于Stable Diffusion 的 UNet 结构，通过接收多帧噪声并尝试去噪成连续的视频帧。

同时，这个过程涉及到两个主要的注意力机制：Reference-Attention 和 Audio-Attention。前者用于保持角色身份的一致性，后者则用于调制角色的动作。此外，EMO 还利用时间模块处理视频的时间维度，通过自注意力机制保持帧连贯性。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\2.jpeg)

为了训练 EMO模型，研究团队还打造了一个庞大的音视频数据集，包含了 250 小时的视频和 1.5 亿张图片，覆盖了多种语言和丰富的人类表情及声音风格。

在推理阶段，EMO 采用了 DDIM 采样算法，通过迭代去噪生成与音频同步的视频片段，比起诸如 Wav2Lip、DreamTalk 和SadTalke 等其他方法，EMO 在生成自然、表现力强的视频方面更胜一筹。

不过，EMO 也有它的小瑕疵。例如，它在生成视频时耗时更长，计算成本也较高。且由于 EMO 没有使用明确的控制信号来指导角色的运动，可能会在视频中无意中产生非目标身体部位（如手）的动作，导致伪影。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\3.jpeg)

对于音调强烈的人声音频（如唱歌），EMO 比较难处理长时间片段（约 1 分钟），从而可能影响视频的连贯性和质量。

我们也在 Google 学术上查找了这篇论文的背后作者：Linrui Tian，Qi Wang，Bang Zhang 和 Liefeng Bo，但目前能确定作者身份的只有薄列峰（Liefeng Bo）。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\4.png)

2007 年，他在西安电子科技大学获得了计算机视觉博士学位，在亚马逊任职首席科学家时，便参与研发了 AmazonGo 无人零售店。根据他的 Google 学术主页信息，他目前担任阿里巴巴集团 XR 实验室的负责人。

除了业界经验丰富，在学界方面，薄列峰博士在 Neurips，CVPR，ICCV， ICML,，AAAI， ICRA， IJCV 等国际顶级会议和期刊上合计发表论文近百篇，论文被引用 13610 次，H 指数 53。

卷到极致的 AI 视频，也终将惠及每一个人

AI 的科技风口上，挂着一连串的「元年」，去年，我们还在庆祝文本生成和图像创作的新「元年」。到了今年，OpenAI 推出的 Sora 视频生成工具，直接将 AI 视频制作的「元年」拨向了 2024。

Sora 的问世预示着行业格局的重大变革。它能够生成长达 1 分钟的视频，远超市场上仅能制作数秒亦或者十几秒视频的 Pika、Runway 等产品，其优势不言而喻。

更令人瞩目的是，Sora 支持将多段现有视频整合，并能扩展视频的前后内容，这一功能在以往的产品中尚属首次。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\5.gif)

在这场「主不在乎」的降维打击之下，如果老玩家们的技术未能超越 OpenAI，那么留给他们的生存空间一定是更小的。

此外，AI 视频生成赛道上的「卷上加卷」已经是老生常谈的话题了，Runway Gen-2、Stable Video Diffusion、Pika 1.0、W.A.L.T 模型等等，几乎所有的 AI 巨头都在争夺这一领域的领先地位。

面对 Sora 的颠覆性影响，灵活地转变方向，亦或者深耕于具有差异化特色的商业应用，似乎都是更明智的选择。

新入场的玩家 LTX Studio 便是这一趋势的典型代表，这是一款只专注于电影专业领域，由 AI 驱动的电影生成和剪辑软件。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\6.gif)

LTX Studio 在一个平台上实现了从前期制作到后期制作的全过程，整合了视频制作的各个关键环节，包括角色设计、场景搭建、镜头拍摄，以及一键生成包含特效、音乐和旁白的视频剪辑等。

通过将电影工作流细化为一系列功能模块，LTX Studio 让每个人都有机会仅通过语言表达，轻松创作出结构完整、节奏适宜的视频作品，也让每个人的导演梦触手可及。

与此同时，老玩家 Pika 近期也在不断创新，推出了专注于唇形同步的视频生成功能。但从实际效果上看，阿里的 EMO 依然遥遥领先。

Pika 唇形同步的效果遭到了网友的辣评。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\7.jpeg)

而这种在细分场景中的内卷，也终将惠及我们每一个人。

以翻译领域为例，在过去，我们要想听一个外国人说中文，需要内容校对，专人翻译和选人配音三个步骤，最后得到的是有点儿违和的翻译腔语音，使得体验大打折扣。

但现在有了 EMO 这类工具，我们甚至可以让不同母语背景的人流利地说出其他语言。

这项技术不仅充满想象力，其商业应用前景同样广阔。无论是翻译国外大片、影音资料，还是新闻转播、产品发布会直播，甚至是直播带货，都能发挥其独特的价值。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\8.png)

此外，暂且让我们抛开老调重弹的隐私问题，正如上文所述，EMO 仅用一张照片和一段音频就能「复活」一个真假难辨的张国荣，这不仅仅是技术上的突破，更是对人类情感和记忆的一种深刻致敬。

AI 技术的应用已然超越了传统的娱乐和商业领域，它能够让我们以一种前所未有的方式与过去相连，让生命的影响得以在数字世界中延续和扩展。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\9.png)

知名音乐人包小柏的女儿患上了一种罕见的血液疾病，遗憾的是，她未能战胜病魔，最终离开了人世。

自 2022 年起，包小柏决心攻读博士，他怀揣着一个梦想：利用 AI 技术，在数字世界中重现女儿的生命。

经过无数次的探索与训练，他成功地创造了一个能够交流、唱歌的「数字女儿」。最近，这位「数字女儿」还为母亲献上了一首生日祝福歌。

通过 AI，我们可以让已故的亲人、所挂念的人留在数字世界里，而这或许正是 EMO 这类技术带给我们的最大价值。

正如包小柏曾感慨的那样，对我而言，AI 可以让我明确知道，能把思念的模式换一种工具来表达。

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\10.png)

![](image\国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap\11.png)

阅读原文

国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap ​

国产 AI 视频也惊艳！阿里新技术让高启强化身罗翔普法，小李子在线唱 rap