Skip to content

【标题】大模型的套壳争议:自研还是模仿?

【核心内容】

  • 2023年是大模型元年,国产大模型数量突破200个,但套壳问题一直困扰着大模型的发展。
  • 大模型的内核源自2017年谷歌发布的Transformer神经网络架构,现在主要有三个变体架构:BERT、GPT和T5。
  • 自研派和模仿派是两种不同的大模型公司类型,自研派从头开始研发预训练框架,而模仿派在开源框架的基础上进行修改。
  • 大模型的训练过程包括预训练和微调两个阶段,预训练是核心环节,微调决定了模型的能力。
  • 在微调阶段,一些公司通过使用ChatGPT等对话模型生成的数据来提高模型的性能,这引发了一些争议。
  • 套壳行为可以分为多个阶段,包括直接引用OpenAI接口、构建Prompt、Embedding特定数据集和微调Fine-Tuning等。

【评论内容】

  • 小红书用户:大模型的套壳问题真是复杂,不同的公司有不同的做法,到底哪种方式更好呢?真是让人眼花缭乱啊!
  • 微信公众号读者:原创派和模仿派的争议真是有趣,他们各有优势,但目前来看,性能差距不大。关键还是看工程化能力和业务成本结构,套壳与否并不是最重要的问题。

" 【标题】大模型套壳:误解与真相

【核心内容】

  1. 大模型内核均源自 Transformer 架构,所有模型都在「套壳」Transformer 及其三个变体架构。
  2. 预训练是大模型训练最核心的环节,也引发了「套壳」与「自研」的争议。
  3. 预训练阶段分为「原创派」与「模仿派」,原创派从零开始研发预训练框架,模仿派则在开源框架基础上进行修改。
  4. 微调阶段存在「偷」ChatGPT 等对话模型的数据的现象,但这也是模仿学习的一种方式。
  5. 「套壳」的行为并不一定代表没有竞争力,关键在于如何利用好「壳」提升产品的厚度和质量。

【评论内容】 小红书用户:大模型套壳真的好吗?我觉得还是要看具体场景和应用啊,不能一概而论。

微信公众号读者:大模型套壳的真相,竟然是这样的!其实我觉得,只要能做出好的产品,套壳又有什么关系呢?重要的是创新和进步。"

上次更新于: