大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

LLM 引领数据分析进化在字节数据平台的实践|QCon 北京

  • 2025-03-28
    北京
  • 本文字数:1272 字

    阅读完需:约 4 分钟

LLM 引领数据分析进化在字节数据平台的实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


字节跳动数据平台资深大模型技术专家赵晓明已确认出席并发表题为《LLM 引领数据分析进化在字节数据平台的实践》的主题分享。2021 年 LLM 大语言模型爆发,字节跳动利用 LLM 技术构建垂直化数据智能引擎,实现从规则到意图、单一到全链路、“工具”到“智能助手”的跃迁。本次演讲主要分享其数据智能发展历史、LLM 技术突破带来业务演进、大数据领域模型建设以及对未来数据分析域产品形态的演进思考。


赵晓明曾服务过华为、阿里等公司,目前负责字节跳动-Data-数据平台 领域大模型相关技术工作。从早期基于 Bert NLP 技术孵化 Databot 机器人,到近 2 年结合 LLM 能力构建大数据领域模型,经历了近些年数据智能技术的演进,在数据智能领域有丰富的落地经验。他在本次会议的详细演讲内容如下:


演讲大纲

1. 背景:数据智能发展史

  • 大模型数据分析产品形态,从「传统 BI」到「DI = AI+BI」

2. 数据智能相关技术发展史

  • 早期:搜索式 BI

  • 中期:基于 Bert NLP 交互式 Databot

  • 近期:LLM 技术升级下的 DataAgent 机遇 &挑战

3. LLM 技术引领数据分析领域业务演进

  • 端到端的数据分析全域升级

  • 代码补全: 临时查询取数、数据加工任务

  • SQL 工具:日常 SQL 任务开发维护(联动修改、批量更新、Bugfixed )

  • Schema 建模:智能建模(字段增强、 表达式生成、数据集摘要)

  • DataAgent 智能体 :NL2SQL 分析取数、ADA 高级分析

4. 领域模型建设 & 落地效果

  • 领域知识中心 : 资产沉淀、知识挖掘

  • 知识嵌入: 数据资产召回(表、字段、 数据口径、白皮书等)

  • LLM 领域模型精调 : CT、SFT、RL

5. 总结与展望

  • 技术侧:LLM 模型能力提升、多模态技术结合

  • 产品侧:新交互孵化、产品能力持续迭代升级


您认为,这样的技术在实践过程中有哪些痛点?

  • 在实践中,如何构建领域模型相对通用模型的优势,且需要衡量 ROI 投入产出比


演讲亮点

从 0 到 1 构建大数据领域模型,支持端到端的数据分析全域升级。不局限于智能分析取数场景,同时利用知识挖掘、生产的方式沉淀领域知识中心


听众收益

  • 从传统 BI 到 DI(AI + BI) 的转变,掌握数据分析产品的未来趋势

  • 了解 LLM 在引领数据分析进化的演进现状

  • 掌握 LLM 在数据分析全域升级的技术架构

  • 了解大数据领域模型的搭建过程


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-28 14:407902

评论

发布
暂无评论
发现更多内容

DApp开发中的LP分红系统:流动性激励机制的范式革命与生态重构

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

摊牌了!一文教会你轻松上手豆包MarsCode 编程助手!

火山引擎开发者社区

从 Copilot 到垂直工具:AI 编程的 "专精特新" 进化论

飞算JavaAI开发助手

如何通过CAD坐标找点?

在路上

cad cad看图 CAD看图王

链游冷启动核弹:DeFi清算收益+社交裂变,7天零成本获取10万真实玩家

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

实战案例|利用MarsCode内置的DeepSeek服务,单元测试耗时缩短70%!

火山引擎开发者社区

技术赋能与创新实践:基于低代码平台的高性能应用开发

JeeLowCode低代码平台

低代码 低代码开发 低代码平台 低代码, 低代码选择

CAD中镜像功能真好用,大大提高绘图效率!

在路上

cad cad看图 CAD看图王

ITSM运营双引擎:科学度量指标体系×LLM智能分析实战

嘉为蓝鲸

运维 AIOPS ITSM

🔥 新手也能懂!Shopee商品详情API接口全攻略

Noah

运维生态重构进行时:从嘉为蓝鲸全栈智能观测中心V4.4看全栈观测的AI化跃迁路径

嘉为蓝鲸

智能运维 产品发布 全栈智能观测中心

交易所开发:数字文明进化的基础设施革命

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 交易所开发代币开发

嘉为蓝鲸自动化运维中心V2.6:规范运维范式,保障数字化转型成果

嘉为蓝鲸

AIOPS 自动化运维

中物院超级计算与数字智能2025年大会:嘉为蓝鲸揭秘数智化运维转型关键突破点

嘉为蓝鲸

智能运维 数智化

火山引擎云上实战: DeepSeek R1 大模型(全尺寸)

火山引擎开发者社区

黑龙江省多家政务服务移动端及政企内部办公应用适配鸿蒙,加速智慧政务升级

最新动态

从零到一:如何用 AI 工具一天内完成 Java 项目搭建?

飞算JavaAI开发助手

在PyCharm中提升编程效率:通义灵码(DeepSeek)助手全攻略(新版)

阿里巴巴云原生

阿里云 云原生 通义灵码

Java 开发者必备:2025 年 AI 工具推荐

飞算JavaAI开发助手

文献解读-SARS-CoV-2 variant Delta rapidly displaced variant Alpha in the United States and led to higher viral loads

INSVAST

生信服务 delta 变异检测 全基因组测序 基因分析

Netty源码—Pipeline和Handler

不在线第一只蜗牛

Netty

在PyCharm中提升编程效率:通义灵码(DeepSeek)助手全攻略(新版)

阿里云云效

阿里云 云原生 通义灵码

行业合作丨Altair 携手政产学研各界,共探AI驱动制造业数字化转型新路径

Altair RapidMiner

AI 数字化转型 HPC 仿真 仿真驱动设计

数仓架构告别「补丁」时代!全新批流一体 Domino 架构终结“批流缝合”

YMatrix 超融合数据库

数据仓库 数据架构 流式数仓 超融合数据库 YMatrix

什么是权威解析服务器?权威解析服务器有什么用?(国科云)

国科云

Bypass Paywalls Clean 被封禁背后的新闻业困局

TechubNews

区块链 新闻 web3

为什么大厂团队禁用代码片段工具?完整生成工具的 4 大不可替代性

飞算JavaAI开发助手

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(11)

HarmonyOS SDK

harmoyos

和鲸科技执行总裁殷自强受邀主讲华中附属同济医院大模型应用通识首期课程

ModelWhale

人工智能 大数据 医疗

运维的价值为何经常被挑战?哪些工作更有价值?

巴辉特

运维 SRE

运维人的AI外挂来了!WeOpsV4.20&V5.20深度集成三大模型实现知识沉淀

嘉为蓝鲸

自动化运维 #WeOps

LLM 引领数据分析进化在字节数据平台的实践|QCon北京_字节跳动_QCon全球软件开发大会_InfoQ精选文章