写点什么

大模型调优数据的高效构建与进化方法|AICon 北京

  • 2025-06-03
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:591.51K时长:03:21
大模型调优数据的高效构建与进化方法|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


中电金信研究院副院长单海军已确认出席并发表题为《大模型调优数据的高效构建与进化方法》的主题分享,大模型训练调优演进很快,高质量的数据处理与标注也一直是大模型训练与调优的痛点。DeepSeek 最新构建的大模型使用纯强化学习的方式进行大模型训练。未来大模型的训练是否还需标注的数据,数据构建标注是否还有意义?如何高效处理与构建,并进行指令数据的进化,值得研究与探索。



单海军,工学博士,正高级工程师。现任中国电子集团中电金信副总裁、研究院副院长,负责公司 AI 业务线。毕业于浙江大学,先后获得学士和博士学位,2011-2012 期间在美国明尼苏达大学公派留学,有 15 余年人工智能领域的研发和管理经验。担任国家科技项目管理专家库专家、浙江省科技专家库专家、复旦大学电子信息学术学位行业导师,入选了上海市青年拔尖人才、上海市产业菁英高层次人才。曾任职于华为中央软件研究院和之江实验室(国家级),分别担任技术主管和人工智能研究中心负责人。曾主持和参与了 7 个国家级和省部级项目,获得 2022 年度中国电子集团科技人才奖,发表高水平论文和国内外发明专利 50 余篇,拥有国际 ITU 标准 1 项和行业标准多项。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 背景介绍:大模型训练调优对数据的需求变化

  2. 大模型后训练数据准备与处理

  3. SFT 指令数据构建及处理

  4. RLHF 数据的构建与训练

  5. 大模型数据安全与版本管理


您认为,这样的技术在实践过程中有哪些痛点?

  • 未来是否还需要数据标注悬而未决

  • 如何保证数据的质量

  • 如何降低人工标注数据的工作量


您的演讲有哪些前沿亮点?

  • 端到端介绍大模型数据工程的处理链路

  • 除了介绍 SFT 指令数据的构建之外,还会介绍 SFT 指令数据的进化等


听众收益

  • 掌握和了解大模型数据工程处理的全链路

  • 可以看到大模型数据处理的趋势


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-03 16:004207

评论

发布
暂无评论

小程序容器作为软件中间件技术不可忽视的价值

FinFish

小程序容器 小程序技术 软件中间件

ChatGPT辅助编程

鲸品堂

ChatGPT 企业号 3 月 PK 榜

软件测试/测试开发 | 测试平台开发-前端开发之Vue router路由设计

测试人

软件测试 测试开发 测试平台

微服务引擎 MSE 企业版全新升级

阿里巴巴中间件

阿里云 微服务 云原生

引领云数仓创新浪潮 HashData闪耀PostgreSQL中国技术大会

酷克数据HashData

新思科技发布《2023年开源安全和风险分析》报告

InfoQ_434670063458

开源 新思科技 软件安全

OpenKruise 开发者不容错过的带薪实习机会!马上加入 LFX Mentorship 计划

阿里巴巴中间件

阿里云 开源 云原生 OpenKruise

更高效、更实用的跨端开发选择

FinFish

flutter finclip 小程序容器 跨端框架

瓴羊Quick BI与Power BI之争:数据大屏优势明显

对不起该用户已成仙‖

ChatGPT潜能很大,问题也是

引迈信息

人工智能 低代码开发 应用开发 ChatGPT JNPF

下一站,冠军|走进2022 OceanBase数据库大赛12强

OceanBase 数据库

数据库 oceanbase

Apache IoTDB v1.0.1 发布|修复分区计算,优化集群启停流程

Apache IoTDB

IoTDB

使用metrics-server监控k8s的资源指标

tiandizhiguai

DevOps 微服务 云原生 k8s

Tuxera NTFS2023版读写NTFS磁盘功能工具

茶色酒

Tuxera NTFS2023

软件测试/测试开发 | 测试平台开发-前端开发之Vue.js 框架的使用

测试人

为企业全方位解决进销存管理难题的ERP套件

力软低代码开发平台

基于Python+UIautomation的WindowsGUI自动化测试实战(一)-记事本

自动化测试 GUI UIaotumation

新思科技为三星SDS公司开源使用和风险管理提供自动治理解决方案

InfoQ_434670063458

开源 软件开发 新思科技 软件安全

2022 IoTDB Summit:阿里白渐《迈向物联网时代大数据计算平台——MaxCompute 基于IoTDB构建解决方案》

Apache IoTDB

大数据 时序数据库 IoTDB

what量化合约系统开发&源码丨clear合约量化系统开发技术(Demo案例)

I8O28578624

软件测试/测试开发 | 一步一步学测试平台开发-Vue restful请求

测试人

软件测试 自动化测试 测试开发 测试平台

ICLR 2023 | 网易伏羲3篇论文入选,含强化学习、自然语言处理等领域

网易伏羲

隐私计算技术路线介绍及对比

隐语SecretFlow

隐私计算

纵存科技加入龙蜥社区,共建高性能存储软件栈

OpenAnolis小助手

开源 合作伙伴 龙蜥社区 CLA 纵存科技

重磅通知!OpenAI又放大招:官宣开放API接口-3.5版本 需求大涨,机遇与挑战并存,谁能拔得头筹?

加入高科技仿生人

人工智能 开源 openai ChatGPT

Soul 云原生网关最佳实践

阿里巴巴中间件

阿里云 云原生 实践 云原生网关

基于Python+UIautomation的WindowsGUI自动化测试实战(二)-计算器

Python 自动化测试 GUI UIaotumation

数据库革新拐点已来——MatrixOne Beta Program Recap

MatrixOrigin

云原生 分布式数据库 MatrixOrigin MatrixOne

首批!阿里云容器服务 ACK 顺利通过信通院云原生混部项目评估

阿里巴巴中间件

阿里云 容器 云原生

使用 Pulumi 打造自己的多云管理平台

亚马逊云科技 (Amazon Web Services)

Amazon S3

大模型调优数据的高效构建与进化方法|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章