Kainy的订阅号

【标题】Midjourney V6：图像模型的突破靠的是语言模型能力？

【核心内容】

Midjourney V6是一个文生图模型，通过提升自然语言处理能力来改进图像生成能力。
改进的核心能力包括对提示词的跟随能力和提示词长度的增加。
在跟随能力方面的改进主要基于上下文管理、序列建模和交互状态跟踪。
Midjourney V6的图片生成能力得益于公共资源的使用，可以将生成的图片用于模型训练以提高性能。
图像模型通过语言能力的突破已经不是第一次，Dall·E 3也是如此。
Midjourney V6在语言理解上与DALL·E存在一定差距，但它也在逐渐进化，增加了文本绘制能力。
Midjourney的训练方法是通过训练图像的放大能力来实现，这种方法可以逐渐产生关于文字的生成能力。
视觉模型在文本生成方面可能比纯粹的语言模型更具优势，这给多模态模型的发展提供了新的思路。

【评论内容】这个Midjourney V6的更新真是让人眼前一亮啊！图像模型居然通过提升语言模型的能力来突破，真是意想不到！不过，它的语言理解能力似乎还有一些差距，不如DALL·E。不过，它也在不断进化，增加了文本绘制能力，这真是一项重大进步啊！看来视觉模型在文本生成方面可能比纯粹的语言模型更有优势呢。多模态模型的发展真是让世界更精彩了！