大模型调优数据的高效构建与进化方法｜AICon北京

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

中电金信研究院副院长单海军已确认出席并发表题为《大模型调优数据的高效构建与进化方法》的主题分享，大模型训练调优演进很快，高质量的数据处理与标注也一直是大模型训练与调优的痛点。DeepSeek 最新构建的大模型使用纯强化学习的方式进行大模型训练。未来大模型的训练是否还需标注的数据，数据构建标注是否还有意义？如何高效处理与构建，并进行指令数据的进化，值得研究与探索。

单海军，工学博士，正高级工程师。现任中国电子集团中电金信副总裁、研究院副院长，负责公司 AI 业务线。毕业于浙江大学，先后获得学士和博士学位，2011-2012 期间在美国明尼苏达大学公派留学，有 15 余年人工智能领域的研发和管理经验。担任国家科技项目管理专家库专家、浙江省科技专家库专家、复旦大学电子信息学术学位行业导师，入选了上海市青年拔尖人才、上海市产业菁英高层次人才。曾任职于华为中央软件研究院和之江实验室（国家级），分别担任技术主管和人工智能研究中心负责人。曾主持和参与了 7 个国家级和省部级项目，获得 2022 年度中国电子集团科技人才奖，发表高水平论文和国内外发明专利 50 余篇，拥有国际 ITU 标准 1 项和行业标准多项。他在本次会议的详细演讲内容如下：

演讲提纲
背景介绍：大模型训练调优对数据的需求变化
大模型后训练数据准备与处理
SFT 指令数据构建及处理
RLHF 数据的构建与训练
大模型数据安全与版本管理
您认为，这样的技术在实践过程中有哪些痛点？
未来是否还需要数据标注悬而未决
如何保证数据的质量
如何降低人工标注数据的工作量
您的演讲有哪些前沿亮点？
端到端介绍大模型数据工程的处理链路
除了介绍 SFT 指令数据的构建之外，还会介绍 SFT 指令数据的进化等
听众收益
掌握和了解大模型数据工程处理的全链路
可以看到大模型数据处理的趋势

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

大模型调优数据的高效构建与进化方法｜AICon 北京