智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

大模型调优数据的高效构建与进化方法|AICon 北京

  • 2025-06-03
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:591.51K时长:03:21
大模型调优数据的高效构建与进化方法|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


中电金信研究院副院长单海军已确认出席并发表题为《大模型调优数据的高效构建与进化方法》的主题分享,大模型训练调优演进很快,高质量的数据处理与标注也一直是大模型训练与调优的痛点。DeepSeek 最新构建的大模型使用纯强化学习的方式进行大模型训练。未来大模型的训练是否还需标注的数据,数据构建标注是否还有意义?如何高效处理与构建,并进行指令数据的进化,值得研究与探索。



单海军,工学博士,正高级工程师。现任中国电子集团中电金信副总裁、研究院副院长,负责公司 AI 业务线。毕业于浙江大学,先后获得学士和博士学位,2011-2012 期间在美国明尼苏达大学公派留学,有 15 余年人工智能领域的研发和管理经验。担任国家科技项目管理专家库专家、浙江省科技专家库专家、复旦大学电子信息学术学位行业导师,入选了上海市青年拔尖人才、上海市产业菁英高层次人才。曾任职于华为中央软件研究院和之江实验室(国家级),分别担任技术主管和人工智能研究中心负责人。曾主持和参与了 7 个国家级和省部级项目,获得 2022 年度中国电子集团科技人才奖,发表高水平论文和国内外发明专利 50 余篇,拥有国际 ITU 标准 1 项和行业标准多项。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 背景介绍:大模型训练调优对数据的需求变化

  2. 大模型后训练数据准备与处理

  3. SFT 指令数据构建及处理

  4. RLHF 数据的构建与训练

  5. 大模型数据安全与版本管理


您认为,这样的技术在实践过程中有哪些痛点?

  • 未来是否还需要数据标注悬而未决

  • 如何保证数据的质量

  • 如何降低人工标注数据的工作量


您的演讲有哪些前沿亮点?

  • 端到端介绍大模型数据工程的处理链路

  • 除了介绍 SFT 指令数据的构建之外,还会介绍 SFT 指令数据的进化等


听众收益

  • 掌握和了解大模型数据工程处理的全链路

  • 可以看到大模型数据处理的趋势


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-03 16:001

评论

发布
暂无评论

6步玩转OpenHarmony标准芯片适配

LAVAL社区小助手

OpenHarmony

[OpenHarmony]一文带你详解芯片--SL8541e-系统性能优化

LAVAL社区小助手

OpenHarmony

[OpenHarmony]手把手教你OTA升级开发

LAVAL社区小助手

OpenHarmony

hbuilderx打包苹果证书获取步骤

ios开发 Windows证书 ios证书

ChatGPT:生成式AI的新里程碑

百度开发者中心

#人工智能 ChatGPT 文心一言

Flink资源调度模型

腾讯云大数据

flink

工时管理魔法课堂:如何在Jira中进行项目时间与成本管理?

龙智—DevSecOps解决方案

Jira插件 工时管理 jira工时

在代码世界游走,没几把“锁”防身可不行 | 京东云技术团队

京东科技开发者

分布式锁 java锁 java‘ 企业号 8 月 PK 榜

大数据平台需要做等保测评吗?怎么做?

行云管家

大数据 等保 大数据平台 等级保护 等保测评

ChatGPT:生成式AI引领科学革命

百度开发者中心

#人工智能 ChatGPT 文心一言

解析大规模开发:提升企业级开发效率与质量,加速创新

龙智—DevSecOps解决方案

Atlassian Atlassian 云版 大规模开发

Spring缓存是如何实现的?如何扩展使其支持过期删除功能? | 京东云技术团队

京东科技开发者

spring Spring Cache 企业号 8 月 PK 榜 spring缓存

[OpenHarmony]稳定性专项运作知识地图,一张图带你稳过“万重山”

LAVAL社区小助手

OpenHarmony

[OpenHarmony]效果差、不便捷、无接口,TV项目共建如何避开这些坑?

LAVAL社区小助手

OpenHarmony

ChatGPT:引领生成式AI的变革

百度开发者中心

#人工智能 ChatGPT 文心一言

ChatGPT:生成式AI技术带来的变革

百度开发者中心

自动驾驶 #人工智能 文心一言

ChatGPT:引领未来智能交互的生成式AI

百度开发者中心

#人工智能 ChatGPT 文心一言

解析BeanDefinitionRegistry与BeanDefinition合并

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

生成式AI新机遇:文心一言三大产业应用

百度开发者中心

#人工智能 文心一言

高性能MySQL实战(一):表结构 | 京东物流技术团队

京东科技开发者

数据库表 表结构设计 企业号 8 月 PK 榜 高性能表

浅谈Redis - 热点key问题 | 京东云技术团队

京东科技开发者

redis Redis 热点key 企业号 8 月 PK 榜

生成式AI与ChatGPT:引领未来智能交互

百度开发者中心

#人工智能 文心一言

使用 Feature Flags 与可观测工具实现数据库灰度迁移

观测云

数据库 可观测性

生成式AI技术的应用与发展

百度开发者中心

文章 #人工智能 ChatGPT 文心一言

云堡垒机英语怎么翻译?它比硬件堡垒机便宜吗?

行云管家

云计算 堡垒机 云堡垒机

系统架构合理性的思考 | 京东云技术团队

京东科技开发者

架构设计 应用架构 企业号 8 月 PK 榜 架构合理性

逻辑清晰,详解社交源码Android开发SDK

山东布谷网络科技

sdk

使用 UCS(On-Premises) 管理您的GPU资源池,释放AI大模型算力潜能

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

大模型调优数据的高效构建与进化方法|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章