Kainy的订阅号

【标题】研发大模型：挑战、思路和演进策略

【核心内容】

产业研发大模型面临的挑战：
- ICT领域知识繁杂且多变，开源模型难以处理复杂任务。
- 华为代码仓库中存在复杂的代码语义和缺乏人工注释。
- 代码具有单一性，不同产品之间的代码关联性较小。
- 代码依赖链路较长，涉及多种元素，降低了代码生成的准确性。
研发大模型构建探索总体思路：
- 数据标注与清洗规范和脚本工程项目的制定。
参与研发大模型训练的数据：
- 开源阶段的高质量数据。
- 清洗华为语料库中的代码。
- 领域数据-SFT阶段的代码地图和项目级跨文件信息。
- RAG阶段的检索信息和API接口说明。
研发大模型整体演进策略与方案设计：
- 数据准备阶段和训练评估阶段的迭代和优化。
RAG：研发大模型的最后一公里：
- 自动化信息抽取和项目级上下文感知能力。
研发大模型是否会取代程序员：
- 程序员需求各异，期望模型辅助编码而非完全替代。
- AI编程具有特殊性，需要人工干预和专业知识。
- AI是开发人员的智能助手，不会替代思考能力。
- 大模型的使用提升研发效率，但程序员仍需掌握高维度工作。

【评论内容】哇，研发大模型的挑战还真不少啊！代码语义复杂、缺乏注释，还有代码关联性和依赖链路的问题，这些都是让大模型难以应对的挑战。不过，华为的研发团队还是找到了解决方案，通过数据标注和清洗、自动化信息抽取等方法来提高研发效率。虽然大模型可能不能完全取代程序员，但它可以成为程序员的智能助手，帮助他们更专注于思考和高维度的工作。这样一来，研发效率就能大大提升啦！加油华为云PaaS团队！