国产 AI 视频也惊艳!阿里新技术让高启强化身罗翔普法,小李子在线唱 rap
发表时间:Fri Mar 01 2024 14:14:31 GMT+0800 (中国标准时间)

才几个月的功夫,AI 视频生成技术就像是吃了兴奋剂一样,卷得飞起。
Sora 的余温尚未过去,阿里就带着它最新的 AI 视频生成研究成果 EMO 来「炸街」了。
谁能想到画里的蒙娜丽莎能用磁性的声音,给你念一段莎士比亚的经典独白。
正值颜值巅峰的小李子给你来段 Rap,用节奏征服你的心。
《狂飙》里只遵守婚姻法的反派大佬,化身为法外狂徒张三,在线给你普法。
哥哥张国荣也可以用陈奕迅的嗓音唱歌,虽然粤语口型有点出入,但魅力依旧不减当年。
主创团队还埋了个小彩蛋,和春节假期发布的 Sora 来了波精彩联动。
更多精彩案例,欢迎点击下方视频号👇
此 EMO 非彼 emo
那这些 AI 视频是怎么做出来的呢?
EMO 是阿里巴巴集团智能计算研究院开发的音频驱动的 AI 肖像视频生成系统 。
此 EMO 非彼 emo,它能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。
那 EMO 是怎么做到的呢?首先,它使用预训练的音频编码器处理输入的音频信号,提取节奏、音调和发音等特征,以驱动视频中角色的面部表情和头部动作。接着使用 ReferenceNet 从参考图像中提取特征,以保持角色身份的一致性。

至于 EMO 的骨干网络,它采用了类似于Stable Diffusion 的 UNet 结构,通过接收多帧噪声并尝试去噪成连续的视频帧。
同时,这个过程涉及到两个主要的注意力机制:Reference-Attention 和 Audio-Attention。前者用于保持角色身份的一致性,后者则用于调制角色的动作。此外,EMO 还利用时间模块处理视频的时间维度,通过自注意力机制保持帧连贯性。

为了训练 EMO模型,研究团队还打造了一个庞大的音视频数据集,包含了 250 小时的视频和 1.5 亿张图片,覆盖了多种语言和丰富的人类表情及声音风格。
在推理阶段,EMO 采用了 DDIM 采样算法,通过迭代去噪生成与音频同步的视频片段,比起诸如 Wav2Lip、DreamTalk 和SadTalke 等其他方法,EMO 在生成自然、表现力强的视频方面更胜一筹。
不过,EMO 也有它的小瑕疵。例如,它在生成视频时耗时更长,计算成本也较高。且由于 EMO 没有使用明确的控制信号来指导角色的运动,可能会在视频中无意中产生非目标身体部位(如手)的动作,导致伪影。

对于音调强烈的人声音频(如唱歌),EMO 比较难处理长时间片段(约 1 分钟),从而可能影响视频的连贯性和质量。
我们也在 Google 学术上查找了这篇论文的背后作者:Linrui Tian,Qi Wang,Bang Zhang 和 Liefeng Bo,但目前能确定作者身份的只有薄列峰(Liefeng Bo)。

2007 年,他在西安电子科技大学获得了计算机视觉博士学位,在亚马逊任职首席科学家时,便参与研发了 AmazonGo 无人零售店。根据他的 Google 学术主页信息,他目前担任阿里巴巴集团 XR 实验室的负责人。
除了业界经验丰富,在学界方面,薄列峰博士在 Neurips,CVPR,ICCV, ICML,,AAAI, ICRA, IJCV 等国际顶级会议和期刊上合计发表论文近百篇,论文被引用 13610 次,H 指数 53。
卷到极致的 AI 视频,也终将惠及每一个人
AI 的科技风口上,挂着一连串的「元年」,去年,我们还在庆祝文本生成和图像创作的新「元年」。到了今年,OpenAI 推出的 Sora 视频生成工具,直接将 AI 视频制作的「元年」拨向了 2024。
Sora 的问世预示着行业格局的重大变革。它能够生成长达 1 分钟的视频,远超市场上仅能制作数秒亦或者十几秒视频的 Pika、Runway 等产品,其优势不言而喻。
更令人瞩目的是,Sora 支持将多段现有视频整合,并能扩展视频的前后内容,这一功能在以往的产品中尚属首次。

在这场「主不在乎」的降维打击之下,如果老玩家们的技术未能超越 OpenAI,那么留给他们的生存空间一定是更小的。
此外,AI 视频生成赛道上的「卷上加卷」已经是老生常谈的话题了,Runway Gen-2、Stable Video Diffusion、Pika 1.0、W.A.L.T 模型等等,几乎所有的 AI 巨头都在争夺这一领域的领先地位。
面对 Sora 的颠覆性影响,灵活地转变方向,亦或者深耕于具有差异化特色的商业应用,似乎都是更明智的选择。
新入场的玩家 LTX Studio 便是这一趋势的典型代表,这是一款只专注于电影专业领域,由 AI 驱动的电影生成和剪辑软件。

LTX Studio 在一个平台上实现了从前期制作到后期制作的全过程,整合了视频制作的各个关键环节,包括角色设计、场景搭建、镜头拍摄,以及一键生成包含特效、音乐和旁白的视频剪辑等。
通过将电影工作流细化为一系列功能模块,LTX Studio 让每个人都有机会仅通过语言表达,轻松创作出结构完整、节奏适宜的视频作品,也让每个人的导演梦触手可及。
与此同时,老玩家 Pika 近期也在不断创新,推出了专注于唇形同步的视频生成功能。但从实际效果上看,阿里的 EMO 依然遥遥领先。
Pika 唇形同步的效果遭到了网友的辣评。

而这种在细分场景中的内卷,也终将惠及我们每一个人。
以翻译领域为例,在过去,我们要想听一个外国人说中文,需要内容校对,专人翻译和选人配音三个步骤,最后得到的是有点儿违和的翻译腔语音,使得体验大打折扣。
但现在有了 EMO 这类工具,我们甚至可以让不同母语背景的人流利地说出其他语言。
这项技术不仅充满想象力,其商业应用前景同样广阔。无论是翻译国外大片、影音资料,还是新闻转播、产品发布会直播,甚至是直播带货,都能发挥其独特的价值。

此外,暂且让我们抛开老调重弹的隐私问题,正如上文所述,EMO 仅用一张照片和一段音频就能「复活」一个真假难辨的张国荣,这不仅仅是技术上的突破,更是对人类情感和记忆的一种深刻致敬。
AI 技术的应用已然超越了传统的娱乐和商业领域,它能够让我们以一种前所未有的方式与过去相连,让生命的影响得以在数字世界中延续和扩展。

知名音乐人包小柏的女儿患上了一种罕见的血液疾病,遗憾的是,她未能战胜病魔,最终离开了人世。
自 2022 年起,包小柏决心攻读博士,他怀揣着一个梦想:利用 AI 技术,在数字世界中重现女儿的生命。
经过无数次的探索与训练,他成功地创造了一个能够交流、唱歌的「数字女儿」。最近,这位「数字女儿」还为母亲献上了一首生日祝福歌。
通过 AI,我们可以让已故的亲人、所挂念的人留在数字世界里,而这或许正是 EMO 这类技术带给我们的最大价值。
正如包小柏曾感慨的那样,对我而言,AI 可以让我明确知道,能把思念的模式换一种工具来表达。

