2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

大模型调优数据的高效构建与进化方法|AICon 北京

  • 2025-06-03
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:591.51K时长:03:21
大模型调优数据的高效构建与进化方法|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


中电金信研究院副院长单海军已确认出席并发表题为《大模型调优数据的高效构建与进化方法》的主题分享,大模型训练调优演进很快,高质量的数据处理与标注也一直是大模型训练与调优的痛点。DeepSeek 最新构建的大模型使用纯强化学习的方式进行大模型训练。未来大模型的训练是否还需标注的数据,数据构建标注是否还有意义?如何高效处理与构建,并进行指令数据的进化,值得研究与探索。



单海军,工学博士,正高级工程师。现任中国电子集团中电金信副总裁、研究院副院长,负责公司 AI 业务线。毕业于浙江大学,先后获得学士和博士学位,2011-2012 期间在美国明尼苏达大学公派留学,有 15 余年人工智能领域的研发和管理经验。担任国家科技项目管理专家库专家、浙江省科技专家库专家、复旦大学电子信息学术学位行业导师,入选了上海市青年拔尖人才、上海市产业菁英高层次人才。曾任职于华为中央软件研究院和之江实验室(国家级),分别担任技术主管和人工智能研究中心负责人。曾主持和参与了 7 个国家级和省部级项目,获得 2022 年度中国电子集团科技人才奖,发表高水平论文和国内外发明专利 50 余篇,拥有国际 ITU 标准 1 项和行业标准多项。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 背景介绍:大模型训练调优对数据的需求变化

  2. 大模型后训练数据准备与处理

  3. SFT 指令数据构建及处理

  4. RLHF 数据的构建与训练

  5. 大模型数据安全与版本管理


您认为,这样的技术在实践过程中有哪些痛点?

  • 未来是否还需要数据标注悬而未决

  • 如何保证数据的质量

  • 如何降低人工标注数据的工作量


您的演讲有哪些前沿亮点?

  • 端到端介绍大模型数据工程的处理链路

  • 除了介绍 SFT 指令数据的构建之外,还会介绍 SFT 指令数据的进化等


听众收益

  • 掌握和了解大模型数据工程处理的全链路

  • 可以看到大模型数据处理的趋势


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-03 16:003342

评论

发布
暂无评论

【量化】股市技术分析利器之TA-Lib(二)

恒生LIGHT云社区

量化投资 量化

四步做好Code Review

百度开发者中心

Code Review

贝壳Flutter调试工具-FDB

贝壳大前端技术团队

flutter 调试工具 内存监控

Istio 实践手册 | 迎接新一代微服务架构

xcbeyond

istio 服务网格 28天写作 12月日更 Istio 实践手册

架构实战营模块五作业

spark99

架构实战营

使用 @Transactional 时常犯的N种错误

程序猿DD

spring Spring Boot 事务

打造全新批流融合:详解 Apache Flink 1.14.0 发布的 Pulsar Flink Connector

Apache Pulsar

Java 大数据 分布式 云原生 Apache Pulsar

用户登录设计之双token设计

CRMEB

后端开发实战总结 | 签约计划第二季|后端

阿Q说代码

内容合集 签约计划第二季 技术专题合集

大规模 K8s 集群管理经验分享 · 上篇

尔达Erda

程序员 云原生 k8s K8s 多集群管理 经验分享、

年末冲刺!坚持就是胜利,12月日更来啦~

InfoQ写作社区官方

12月日更 热门活动

搭建企业级实时数据融合平台难吗?Tapdata + ES + MongoDB 就能搞定

tapdata

『上线』OpenSEC SIGs 终于成立了!

SphereEx

开源社区 ShardingSphere SphereEx 中文开源 OpenSEC

秒过!度目智慧通行让常态化防疫更高效

百度大脑

人工智能 人脸识别

【量化】股市技术分析利器之TA-Lib(一)

恒生LIGHT云社区

量化投资 量化

如何更快上手使用 OceanBase 社区版?

OceanBase 数据库

数据库 直播 课程 OceanBase 开源

云原生:Docker实战之容器命令解析(附视频教程)

息之

Docker 视频课 解析

社区知识库|常见问答 FAQ 集合第 1 期

Apache Pulsar

Java 开源 Apache Pulsar 代码人生 社区

博文推荐|使用 Pulsar IO 打造流数据管道

Apache Pulsar

Java 开源 架构 云原生 Apache Pulsar

官宣!yMatrix 完成A轮融资,打造超融合时序数据库!

YMatrix 超融合数据库

高校企业双向赋能,首届飞桨启航菁英计划圆满结束

百度大脑

人工智能 百度 飞桨

ZEGO 即构科技首发适配鸿蒙系统的 Express SDK 1.0 版本,并正式启动公测!(内附源码)

ZEGO即构

音视频 HarmonyOS 鸿蒙开发 即构科技

秒过!度目智慧通行让常态化防疫更高效

百度开发者中心

人工智能

【有奖征文】第一届 OceanBase 技术征文大赛来啦!

OceanBase 数据库

数据库 开源 征文大赛 oceanbase

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

尔达Erda

云计算 大数据 spark 开发者 感悟

WeTest小程序质量专项方案推出,小程序异常监控内测招募中

WeTest

科技热点周刊|PHP 基金会成立、Rust 内讧、Amazon Linux 2022 预览版发布

青云技术社区

云计算

如何设置Activity背景颜色与ProgressBar进度条颜色

Changing Lin

12月日更

Linux/CentOS/Ubuntu查看文件内容命令总结

入门小站

Linux

长连接网关技术专题(六):石墨文档单机50万WebSocket长连接架构实践

JackJiang

websocket 即时通讯 IM 网关

《鱿鱼游戏》中的 AI 是绝对公平的吗?

澳鹏Appen

人工智能 人脸识别

大模型调优数据的高效构建与进化方法|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章