写点什么

LLM 引领数据分析进化在字节数据平台的实践|QCon 北京

  • 2025-03-28
    北京
  • 本文字数:1272 字

    阅读完需:约 4 分钟

LLM 引领数据分析进化在字节数据平台的实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


字节跳动数据平台资深大模型技术专家赵晓明已确认出席并发表题为《LLM 引领数据分析进化在字节数据平台的实践》的主题分享。2021 年 LLM 大语言模型爆发,字节跳动利用 LLM 技术构建垂直化数据智能引擎,实现从规则到意图、单一到全链路、“工具”到“智能助手”的跃迁。本次演讲主要分享其数据智能发展历史、LLM 技术突破带来业务演进、大数据领域模型建设以及对未来数据分析域产品形态的演进思考。


赵晓明曾服务过华为、阿里等公司,目前负责字节跳动-Data-数据平台 领域大模型相关技术工作。从早期基于 Bert NLP 技术孵化 Databot 机器人,到近 2 年结合 LLM 能力构建大数据领域模型,经历了近些年数据智能技术的演进,在数据智能领域有丰富的落地经验。他在本次会议的详细演讲内容如下:


演讲大纲

1. 背景:数据智能发展史

  • 大模型数据分析产品形态,从「传统 BI」到「DI = AI+BI」

2. 数据智能相关技术发展史

  • 早期:搜索式 BI

  • 中期:基于 Bert NLP 交互式 Databot

  • 近期:LLM 技术升级下的 DataAgent 机遇 &挑战

3. LLM 技术引领数据分析领域业务演进

  • 端到端的数据分析全域升级

  • 代码补全: 临时查询取数、数据加工任务

  • SQL 工具:日常 SQL 任务开发维护(联动修改、批量更新、Bugfixed )

  • Schema 建模:智能建模(字段增强、 表达式生成、数据集摘要)

  • DataAgent 智能体 :NL2SQL 分析取数、ADA 高级分析

4. 领域模型建设 & 落地效果

  • 领域知识中心 : 资产沉淀、知识挖掘

  • 知识嵌入: 数据资产召回(表、字段、 数据口径、白皮书等)

  • LLM 领域模型精调 : CT、SFT、RL

5. 总结与展望

  • 技术侧:LLM 模型能力提升、多模态技术结合

  • 产品侧:新交互孵化、产品能力持续迭代升级


您认为,这样的技术在实践过程中有哪些痛点?

  • 在实践中,如何构建领域模型相对通用模型的优势,且需要衡量 ROI 投入产出比


演讲亮点

从 0 到 1 构建大数据领域模型,支持端到端的数据分析全域升级。不局限于智能分析取数场景,同时利用知识挖掘、生产的方式沉淀领域知识中心


听众收益

  • 从传统 BI 到 DI(AI + BI) 的转变,掌握数据分析产品的未来趋势

  • 了解 LLM 在引领数据分析进化的演进现状

  • 掌握 LLM 在数据分析全域升级的技术架构

  • 了解大数据领域模型的搭建过程


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-28 14:407742

评论

发布
暂无评论
发现更多内容

如何正确地计算经过时间(elapsed time)

WuXiaoYuan

Java 时钟同步

干货丨中国移动5G数字工厂引领工业数字化未来(附PPT)

工赋开发者社区

文档信息抽取技术:从非结构化文本到结构化信息的旅程

合合技术团队

人工智能 技术 文档 文档抽取

鲸鸿动能加入气候行动,与野生救援(WildAid)探索公益新玩法

最新动态

如何保障汽车嵌入式软件的质量与安全?您需要了解ASPICE标准

龙智—DevSecOps解决方案

汽车软件开发 汽车软件 ASPICE OEM

网络爬虫使用什么特点的http代理?

巨量HTTP

http代理

什么是LED贴膜屏?

Dylan

技术 广告 3D LED显示屏

苹果Mac电脑3D家居设计 Live Home 3D Pro 激活中文版

胖墩儿不胖y

3D Mac软件 家居设计软件 三维家居设计

一篇聊聊Mybatis插件开发

互联网工科生

sql 数据 mybatis

软件测试/测试开发丨利用人工智能ChatGPT编写晋级报告

测试人

人工智能 程序员 软件测试 ChatGPT 晋级报告

数据驱动,智能运营:2023全球商业创新大会精要

用友BIP

2023全球商业创新大会

以创新抵御经济环境压力:自动化测试ReadyAPI帮助企业平衡软件质量与成本控制

龙智—DevSecOps解决方案

自动化测试

脱颖而出!云起无垠荣获第二届“陇剑杯”优胜奖

云起无垠

微软推出统一 Copilot AI 助手;谷歌拟自主研发 AI 芯片;苹果拟在国内引进新的 OLED 供应商丨RTE开发者日报 Vol.55

声网

基于Java+vue开发的企事业移动培训考试平台

金陵老街

java 架构

Golang 的 GMP:并发编程的艺术

树上有只程序猿

golang GMP

对话在行人|承德水务:通过数智化实现“一滴水的闭环管理”

用友BIP

对话在行人

TiDB binlog故障处理之drainer周期性罢工

TiDB 社区干货传送门

故障排查/诊断

【ODPS新品发布第2期】实时数仓Hologres:推出计算组实例/支持JSON数据/向量计算+大模型等新能力

阿里云大数据AI技术

大数据 阿里云

软件测试/测试开发丨利用人工智能ChatGPT自动生成架构图

测试人

人工智能 软件测试 ChatGPT

安全厂商安恒信息加入龙蜥社区,完成 与 Anolis OS 兼容适配

OpenAnolis小助手

操作系统 龙蜥社区 兼容适配 安全联盟 安恒信息

Mac苹果电脑无线鼠标连不上怎么办

柠檬与橘子

阻碍财务共享助力财务转型的三个坑,要绕行!

用友BIP

财务共享

2023 届的字节跳动技术新人,个个都是宝藏同学

字节跳动技术范儿

字节跳动 offer 校招

企业微信 API 接口调用教程:从入门到精通

Liam

后端 后端开发 API 开放 API 企业微信开发

软件测试/测试开发丨ChatGPT在测试计划中的应用策略

测试人

人工智能 软件测试 测试开发 ChatGPT

PPT | 智能工厂生产制造执行系统(MES)建设方案

工赋开发者社区

LLM 引领数据分析进化在字节数据平台的实践|QCon北京_字节跳动_QCon全球软件开发大会_InfoQ精选文章