写点什么

大模型调优数据的高效构建与进化方法|AICon 北京

  • 2025-06-03
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:591.51K时长:03:21
大模型调优数据的高效构建与进化方法|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


中电金信研究院副院长单海军已确认出席并发表题为《大模型调优数据的高效构建与进化方法》的主题分享,大模型训练调优演进很快,高质量的数据处理与标注也一直是大模型训练与调优的痛点。DeepSeek 最新构建的大模型使用纯强化学习的方式进行大模型训练。未来大模型的训练是否还需标注的数据,数据构建标注是否还有意义?如何高效处理与构建,并进行指令数据的进化,值得研究与探索。



单海军,工学博士,正高级工程师。现任中国电子集团中电金信副总裁、研究院副院长,负责公司 AI 业务线。毕业于浙江大学,先后获得学士和博士学位,2011-2012 期间在美国明尼苏达大学公派留学,有 15 余年人工智能领域的研发和管理经验。担任国家科技项目管理专家库专家、浙江省科技专家库专家、复旦大学电子信息学术学位行业导师,入选了上海市青年拔尖人才、上海市产业菁英高层次人才。曾任职于华为中央软件研究院和之江实验室(国家级),分别担任技术主管和人工智能研究中心负责人。曾主持和参与了 7 个国家级和省部级项目,获得 2022 年度中国电子集团科技人才奖,发表高水平论文和国内外发明专利 50 余篇,拥有国际 ITU 标准 1 项和行业标准多项。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 背景介绍:大模型训练调优对数据的需求变化

  2. 大模型后训练数据准备与处理

  3. SFT 指令数据构建及处理

  4. RLHF 数据的构建与训练

  5. 大模型数据安全与版本管理


您认为,这样的技术在实践过程中有哪些痛点?

  • 未来是否还需要数据标注悬而未决

  • 如何保证数据的质量

  • 如何降低人工标注数据的工作量


您的演讲有哪些前沿亮点?

  • 端到端介绍大模型数据工程的处理链路

  • 除了介绍 SFT 指令数据的构建之外,还会介绍 SFT 指令数据的进化等


听众收益

  • 掌握和了解大模型数据工程处理的全链路

  • 可以看到大模型数据处理的趋势


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-03 16:004296

评论

发布
暂无评论

京东中台化底层支撑框架技术分析及随想

京东科技开发者

全面了解龙蜥衍生版 KeyarchOS 在安全、机密计算等方面的实践 | 龙蜥大讲堂浪潮信息专场

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥大讲堂

Linux中的conntrack命令深入解析

GousterCloud

Linux 运维

高柔性第二代扁线定子量产线正式上市

财见

免费延期一年!Alibaba Cloud Linux 2 EOL 延保支持计划

OpenAnolis小助手

阿里云 操作系统 Alibaba Cloud Linux

开源流量回放平台 AREX 在携程的大规模落地实践

AREX 中文社区

Java 开源 测试 流量回放

嘉为蓝鲸DevOps研发效能管理平台V6.0重磅发布!

嘉为蓝鲸

DevOps 研发管理 研发效能 价值流

淘系接口推荐:淘宝天猫实时商品详情页面数据采集接口

tbapi

数据挖掘 淘宝商品详情数据接口 淘宝API接口 天猫商品详情数据接口

全方位解析ChatGPT:如何培养 AI 智能对话技能?

霍格沃兹测试开发学社

容器中的大模型(三)| 利用大语言模型:容器化高效地部署 PDF 解析器实践

智领云科技

容器 PDF 大模型 AI大语言模型

基于Sermant的全链路灰度发布在汽车行业DMS系统的应用

华为云开发者联盟

云原生 华为云 汽车 华为云开发者联盟 企业号2024年4月PK榜

IM技术干货:假如你来设计微信的群聊,你该怎么设计?

JackJiang

即时通讯;IM;网络编程

月之暗面Kimi智能助手实现200万字长上下文,火山引擎提供云服务支持

新消费日报

ChatGPT全方位解析:如何培养 AI 智能对话技能?

测试人

软件测试

4款免费可用的数据集成平台亮点

谷云科技RestCloud

ETL 数据集成平台

开发者手机AI来袭

Laval小助手

Web Components实践:如何搭建一个框架无关的AI组件库

京东科技开发者

MES定制开发/云MES制造执行系统解决方案

万界星空科技

制造业 生产管理系统 mes 云mes 万界星空科技

你真的会写侧边栏收起动画吗?

前夕

CSS css3 前端

首个镜像服务商奖项公布!「Alinux 伙伴招募计划」最佳服务商名单来了

OpenAnolis小助手

镜像 操作系统 龙蜥社区 Alibaba Cloud Linux

如何提升 API 的性能水平

Apifox

程序员 接口 API 开放 API API 性能

解锁AI Studio:玩转大模型应用,开启智能新时代

百度开发者中心

人工智能 深度学习 大模型

如何选择合适的系统?MES系统和MOM系统的区别

万界星空科技

制造业 mes 万界星空科技 生产管理 MOM

Advanced RAG 01:讨论未经优化的 RAG 系统存在的问题与挑战

Baihai IDP

AI LLM 企业号 4 月 PK 榜 rag 检索增强生成

容器中的大模型(二) | 利用大模型,使用自然语言查询SQL数据库

智领云科技

数据库 sql 容器 AI大模型 大模型

中软协AI沙龙热议:智领云CEO彭锋解读AI大模型技术的应用前景与趋势

智领云科技

容器 AI大模型 大模型 中软协

向量数据库落地实践

京东科技开发者

通过淘宝开放平台API接口获取商品信息:标题、分类与店铺名称的新方法

技术冰糖葫芦

API 接口 API 文档

中小型工厂应如何选择生产管理mes系统

万界星空科技

制造业 生产管理系统 mes 云mes 制造业工厂

大模型调优数据的高效构建与进化方法|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章