刷屏 48 小时后,Sora 又变强了!背后核心成员曝光 | Hunt Good 周报
发表时间:Sun Feb 18 2024 17:44:00 GMT+0800 (中国标准时间)

欢迎收看最新一期的 Hunt Good 周报!
在本期内容你会看到:
5 条新鲜资讯
3 个有用工具
1 个有趣案例
3 个鲜明观点
Hunt for News|先进头条
📹 OpenAI 发布首个视频生成模型 Sora
没有一点点防备,OpenAI 本周突然发布了首个视频生成模型 Sora。
对比 AI 视频里 Runway、Pika、Google 和 Meta 这些主流玩家, Sora 的特别之处在于:
能够生成具有多个角色、特定类型动作和主题背景的复杂视频,时长可达到 1 分钟
可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。
最重要的是,它不仅理解用户在 prompt 中要求的内容,还能自己理解这些事物在现实世界中的存在方式。
详细的细节欢迎回看:
效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻
揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?
Sora 的出现也彻底「炸翻」学术界,CV 大神、纽约大学助理教授谢赛宁也在 X 上对 Sora 进行了一顿分析:
Sora 应该是建立在 DiT 这个扩散 Transformer 之上的。简而言之:DiT = [VAE 编码器 + ViT + DDPM + VAE 解码器]。
至于视频压缩器网络,Sora 可能采用了 VAE 架构,但经过了原始视频数据训练。而由于 VAE 是一个 ConvNet,所以 DiT 从技术上来说是一个混合模型。
由于在 Sora 报告中,第一个视频的质量很差,谢赛宁推测 Sora 使用的模型参数大概只有 30 亿 。
这意味着训练 Sora 模型可能不需要像人们预期的那样多的 GPU。因此谢赛宁预计 Sora 未来的迭代会非常快。

William Peeble
除了技术细节方面,Sora 的三名团队负责人也被逐一扒了出来:
William Peeble 本科在 MIT 主修计算机科学,曾参加 GAN 和 text2video 的研究。
Tim Brooks,去年刚从加州大学伯克利分校博士毕业,爱好摄影和音乐。
Aditya Ramesh 主导了 DALL·E 的全部研究,三个版本的论文都是共同一作。
今天凌晨,William Peeble 继续分享了 Sora 的演示视频,其甚至可以同时并排生成多个视频。
_🔗 https://twitter.com/billpeeb/status/1758960998315135360_
💰「卖铲人」英伟达或成 AI 最大的赢家
英伟达于 2 月 15 日再次迎来市值的飙升,以 1.83 万亿美元的市值一度超越 Google 母公司 Alphabet,成为美股市值第三大公司,仅次于微软和苹果。

随着生成式 AI 的浪潮袭来,英伟达的股价也一路高歌猛进。去年,英伟达的股价接近大涨 2.3 倍。
今年开年以来,英伟达股市继续走高,仅仅一个多月的时间,市值就增长了 5000 亿美元,几乎相当于整个特斯拉的市值。
据华尔街见闻援引投行 Loop Capital 的分析师消息,英伟达的增长势头还远没有结束,该投行给英伟达设定了华尔街最高的目标价 1200 美元,预测英伟达还有巨大的上涨空间。
_🔗 https://tw.tradingview.com/symbols/NASDAQ-NVDA/_
OPPO 内部信:AI 手机元年到来,手机行业将进入第三阶段
今天上午,OPPO 创始人、首席执行官陈明永发表致全体员工的内部信。
在陈明永看来,2024 年是 AI 手机元年。未来五年,AI 对手机行业的影响,完全可以比肩当年智能手机替代功能机。
「从行业发展阶段来看,AI 手机也将成为继功能机、智能手机之后,手机行业的第三阶段。」

陈明永表示:「这是我们对手机行业的一个重大判断。通过 AI,我们可以把手机的体验重新做一遍,帮助用户实现更高价值。
显然,这轮由大模型支撑的 AI 技术,正在重构手机行业的未来。我相信,站在两年后看 2024 年,会更加深入地理解这一判断的意义。」
据 IDC 数据,OPPO 在 2023 年以 16.7% 的市场份额稳居国内手机市场第三名,全球则排名第四。
👀 Andrej Karpathy 离开 OpenAI
OpenAI 联创成员 Andrej Karpathy 本周宣布他将第二次离开公司,并在 X 上发帖表示他计划从事个人项目。
Karpathy 于 2016 年帮助创立了 OpenAI,之后担任特斯拉人工智能高级总监五年,并于去年重新加入 OpenAI。
Karpathy 强调,没有任何的戏剧性的冲突事件导致他离开,同时他近期的计划是专注于个人项目。

离职的 Karpathy 也没有放慢脚步,据 @ZainHasan6 网友的发现,Karpathy 推出了一项新项目 ——minbpe。
该项目旨在为大型语言模型(LLM)在分词阶段常用的字节对编码(BPE,Byte Pair Encoding)算法提供简洁、清晰且易于理解的教育性代码。
截至发稿前,这个项目在 GitHub 上已收获超过 1.6 千的标星。GitHub 地址仙人指路:https://github.com/karpathy/minbpe
_🔗 https://twitter.com/karpathy/status/1757600075281547344_
🧐 消息称字节调集多位高管加大 AI 研发
据 Tech 星球消息,字节旗下多个部门正积极扩张对 AI 产品的研发力度。
例如,Flow 部门除了上线豆包、扣子等 AI 产品外,还将推出 AI 角色互动 APP「话炉」,以及一款或针对图像领域的 AI 产品「PicPic」。
此前,据《晚点 LatePost》透露,字节跳动内部开启了 AI 团队的赛马。抖音多位高管率领项目组探索 AI 与抖音及其商业化产品的深度融合。

近日,张楠也宣布卸下抖音集团 CEO 的职务,重心转向剪映,全力以赴地在 AI 辅助创作领域寻求突破,以推出一个 AI 生图和视频的产品。
除此之外,抖音电商、抖音生活服务、火山引擎、今日头条等其他业务部门,也都在积极涉足 AI 的应用探索。
字节跳动的招聘官网也透露了其 AI 战略的蛛丝马迹,抖音电商、抖音生活服务在招聘智能创作产品经理等职位,或将推出相关的 AI 产品。
🔗 https://mp.weixin.qq.com/s/c9Qw7fp796QYr-1mPDFj3w
Hunt for Tools|先进工具
🙀 Google 推出 Gemini 1.5 版本
在 OpenAI 赢得满堂彩的同一天,Google 也放出了自己的 AI 新大招,发布了新一代型号 Gemini 1.5 系列模型。
其中 Gemini 1.5 Pro 是一个中等规模的多模态模型,其性能水平与 Google 迄今为止最大的模型 1.0 Ultra 类似,并引入了在长上下文理解方面的实验性特性。

Gemini 1.5 Pro 配备了标准的 128000 令牌上下文窗口。但现在已经可以通过 AI Studio 和 Vertex AI 向开发者和企业客户提供高达 100 万个 token 的私人预览。
1.5 Pro 可以一次处理大量信息——包括 1 小时的视频、11 小时的音频、包含超过 30000 行代码的代码库或超过 700000 个单词。
例如,它能读取分析 44 分钟的 1924 年的无声电影并准确捕捉情节要点和细节,甚至能够基于一张简单的线条画识别出电影中的特定场景。
又或者,1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如,当给出阿波罗 11 号登月任务的 402 页记录时,它可以推理整个文档中的对话、事件和细节。
Gemini 1.5 Pro 还展示了「上下文学习」技能,这意味着它能够从一个长提示给出的信息中学习新技能,而不需要额外的微调。
当给定一个关于 Kalamang 语言(一个全球不到 200 名说话者的语言)的语法手册时,Gemini 1.5 Pro 能够学习如何将英语翻译成 Kalamang 语,其翻译水平媲美从相同内容学习的人类。
网友 @gabor 利用 Gemini 1.5 Pro 对 Sora 生成的视频进行了测试,得出的结论是:
视频是日本一条白雪皑皑的街道,樱花盛开。有一些不一致的地方表明该视频可能是人工智能生成的。
首先,雪下得很大,但樱花仍然盛开。樱花通常在春天盛开,此时天气温暖,没有雪。
其次,雪的下落方式非常均匀,这不是现实生活中通常的降雪方式。
第三,视频中的人没有穿任何冬装,即使下着大雪。
总的来说,这段视频在视觉上很吸引人,但不一致的地方表明它不是现实生活中的场景。
_🔗 https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15_
💥 ChatGPT 永久记忆功能上线
除了核弹级 AI 视频生成工具 Sora,ChatGPT 本周也正式上线了一些重磅功能,包括记忆功能和新的用户控制选项。
具体来说,ChatGPT 现在可以在与用户跨聊天的交互中记住你们互动的所有信息,并在后续的长时间对话中提供更相关和个性化的回答。
举个例子,当你在交互过程中提到你有一个喜欢水母的小孩,那么在后续你要求 ChatGPT 帮助创建她的生日贺卡时,它会贴心地建议生成一只带着派对帽的水母。

为了避免敏感信息的泄露,通过用户控制选项,你可以直接要求 ChatGPT 忘记某些信息,甚至能完全关闭记忆功能。
对于企业和团队用户,记忆功能可以在使用 ChatGPT 进行工作时提供帮助,学习用户的风格和偏好,从而节省时间并提供更相关和深刻的响应。
此外,GPTs 功能也将拥有记忆功能。构建者将有选项为他们的 GPTs 启用记忆功能。与用户的聊天一样,记忆不会与构建者共享。
有了这项功能,相信一个更懂你,量身定制的人工智能助手将不远了。此功能将于本周向一部分免费用户和高级订阅用户推出,预计稍后将推广到更多用户。
_🔗 https://openai.com/blog/memory-and-new-controls-for-chatgpt_
🔱 英伟达版 ChatGPT 来了
OpenAI 筹谋进军芯片制造领域,「卖铲人」英伟达则亲自下场打造聊天机器人「Chat with RTX」。
与 ChatGPT 等需要联网使用的聊天机器人不同,Chat with RTX 支持本地运行,能够在配备至少 8GB VRAM 的 GeForce RTX 30 或 40 系列显卡的任何 PC 上运行。

由于「Chat with RTX」在 PC 或工作站上本地运行,因此它提供的搜索结果非常快速,并且允许用户在本地 PC 上处理敏感数据,而无需与第三方共享或连接到互联网
它能够帮你检索、分析保存在电脑上的文件包括文本、PDF、.doc、.docx 和 .xml 等格式。此外,它还可以总结或者搜索 Youtube 上的视频。
不过,它仍存在一些问题,例如不能记忆上下文,而且回复的相关性会受到多种因素的影响。
_🔗 https://twitter.com/rowancheung/status/1757429733837418610_
Hunt for Fun|先行
🎬 Visionary Cinemator:导演级别的 AI 小助手
诸如 Sora、Pika 等工具的到来,让每个普通人都有了拍电影短片的机会,但不等于每个人的电影短片都值得看,而 Visionary Cinemator GPTs 或许可以让你的导演功力更上一层楼。
它可以给你提供创意故事的构思、角色发展和情节布局建议;解释电影和视频制作中的视觉叙事技巧,如镜头选择、色彩运用、光影效果等;提供有关动态影像生成技术、使用的 AI 模型(如Sora)的解释,以及这些技术如何帮助创意过程的信息等。

无论你是想探索一个故事的概念、寻求特定场景的创意输入,还是想了解更多关于视频创作和动态影像生成的技术细节,这个 GPTs 都能帮到你。
随手让它生成一个「林黛玉倒拔垂杨柳」的故事,看看效果如何?
在这个剧本中,我们将创造一个以林黛玉倒拔垂杨柳为核心事件的故事,融入《红楼梦》中的情感深度和象征意义,同时探索人物内心的复杂性和与自然界的关联。
标题:柳泪
故事背景
在繁华落尽的大观园中,春日渐浓。林黛玉,才情与脆弱并存的女子,在园中寻觅心灵的慰藉。垂杨柳,以其柔弱的姿态和生命的顽强,在大观园中独占一方。
故事概要
第一幕:春意盎然
- 大观园中,春光明媚,花开如海,垂杨柳随风轻摆,如同泪水般悠长而悲凉。
- 林黛玉独自漫步于园中,心中满是对家国的忧愁与个人命运的感慨。
第二幕:情感的触动
- 黛玉看到垂杨柳的柔弱,联想到自己的身世和命运,感同身受。她认为这些柳树的生命太过悲哀,应该被解脱。
- 在一时冲动之下,黛玉决定倒拔垂杨柳,希望通过这一行为来表达对自己命运的不满和对柳树的同情。
第三幕:倒拔垂杨柳
- 黛玉试图拔起柳树,但柳树根深蒂固,动摇不得。她的努力徒劳无功,最终疲惫而泣,情绪崩溃。
- 这一行为被园中其他人发现,引起了一系列的误解和非议。
第四幕:反思与领悟
- 贾母和宝玉得知后,前来安慰黛玉,并试图理解她的行为。
- 在与宝玉的对话中,黛玉表达了她对生命、爱情和死亡的看法,以及她对自由和解脱的渴望。
第五幕:情感的升华
- 宝玉通过一首诗歌来安慰黛玉,诗中暗含对生命本质的理解和对黛玉情感的共鸣。
- 黛玉在宝玉的安慰下,逐渐平复心情,开始重新审视自己对生命的态度。
结局
故事以黛玉对生命意义的新认识和对未来的某种宁静接受作为结尾。她意识到,即使生命中充满了不可抗力的悲哀,也要尽可能地寻找美好和希望。
体验地址入口:https://chat.openai.com/g/g-Hj9MCcMyo-visionary-cinemator
_🔗 https://twitter.com/InvisionJust/status/1758853902517084466_
Hunt for insights|先知
✅ 黄仁勋:计算机的时代过去了,人类生物学才是未来
近日,英伟达创始人兼 CEO 黄仁勋出席了在阿联酋迪拜举行的 2024 年世界政府峰会。当被问及如果站在科技的前沿,人们到底应该学习什么时,黄仁勋称:
「人人都必须学会计算机的时代过去了,人类生物学才是未来。」

黄仁勋表示,过去的 10 年 15 年中,几乎每个在座的人都会告诉你,学习计算机对于孩子来说是至关重要的,每个人都需要学习编程。
「但实际上,我们的工作是创造计算技术,使得任何人都不再需要编程,使得编程变成人性的的,现在世界上每一个人都是程序员,技术鸿沟已经完全弥合。
如果我的人生能重来的话,我会认识到人类生物学才是科学里最复杂的领域之一。」
_🔗 https://blogs.nvidia.com/blog/world-governments-summit/_
🥽 扎克伯格称苹果 Vision Pro 贵不代表好
日前,Meta 公司 CEO 马克・扎克伯格发布视频表示,售价 500 美元的 Quest 3 头显不仅比 3500 美元的苹果 Vision Pro 更物有所值,而且产品体验更好。
扎克伯格近日在接受采访时,解释了他发布这段视频的原因,部分媒体先入为主地认定 Vision Pro 是比 Quest 3 更好的产品。

「我看到媒体的报道都是这样的:『Vision Pro 是苹果公司的产品,它是如此昂贵的产品,所以它一定是质量更好的产品,尽管很多人都在说,嘿,不,你应该去买 Quest 3,因为它的价格更优惠』。
我想要说的是,这东西贵七倍并不意味着它就更好。如果你逐个使用案例来分析,Quest 3 的表现真的很不错。我为我们所做的工作感到自豪。所以,我只是想把这一点说出来。」
扎克伯格还提到,每当有人敢于质疑苹果是否会成为一个新类别的领导者时,一些果粉就会不高兴,但现实是,每一代计算机都有开放和封闭两种模式。」
_🔗 https://www.macrumors.com/2024/02/13/meta-quest-3-apple-vision-pro-zuckerberg/_
🍎 Sam Altman :AI 将像手机那样改变世界
当地时间周二,OpenAI CEO Sam Altman 通过视频会议参加了在迪拜举行的世界政府峰会。
Altman 表示,人工智能是他能想象到的「最令人兴奋的科技前沿」,人工智能将开启一个难以想象的未来。
在谈及生成式人工智能和大模型的潜力时,Altman 举例称「我们目前的人工智能技术就像只有黑白屏幕、功能单一的初代手机,虽然它目前所能做的还不多,但已经足够强大,例如支持基本的通话功能,然而,想想今天的 iPhone,它经历了数十年的迭代升级,所取得的成就令人惊叹。」

因此,Altman 在会议上强调:「我们需要保持耐心,给予这项技术足够的时间和空间来展现其真正的价值」。在他看来,再过几年,人工智能将会比现在更加强大和成熟,而再过十年,它定将大放异彩。
值得一提的是,Altman 还在会议上提到了 GPT-5:「它将更加智能,支持多模式交互,并且响应速度更快,但更重要的是,它将变得更加智能。」
彩蛋时间
八九十年代的电影,就像是陈年的老酒,越品越有味道,那些质感满满的电影剧照总能勾起我们的经典回忆。
利用 Midjourney V6,你也生成复古和到位的人物装扮照片,同时画面氛围装扮和照片质感的把握也当属一流,每张照片都散发出那个时代独有的色彩和颗粒感。

作者:@op7418
工具:Midjourney V6
Prompt:Chinese swordsman wearing robe and hat(更换你想生成的场景), DVD screengrab, 1980s fantasy cinema, --ar 9:16 --style raw
链接:https://twitter.com/op7418/status/1758092656134242536

