AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

LLM 引领数据分析进化在字节数据平台的实践|QCon 北京

  • 2025-03-28
    北京
  • 本文字数:1272 字

    阅读完需:约 4 分钟

LLM 引领数据分析进化在字节数据平台的实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


字节跳动数据平台资深大模型技术专家赵晓明已确认出席并发表题为《LLM 引领数据分析进化在字节数据平台的实践》的主题分享。2021 年 LLM 大语言模型爆发,字节跳动利用 LLM 技术构建垂直化数据智能引擎,实现从规则到意图、单一到全链路、“工具”到“智能助手”的跃迁。本次演讲主要分享其数据智能发展历史、LLM 技术突破带来业务演进、大数据领域模型建设以及对未来数据分析域产品形态的演进思考。


赵晓明曾服务过华为、阿里等公司,目前负责字节跳动-Data-数据平台 领域大模型相关技术工作。从早期基于 Bert NLP 技术孵化 Databot 机器人,到近 2 年结合 LLM 能力构建大数据领域模型,经历了近些年数据智能技术的演进,在数据智能领域有丰富的落地经验。他在本次会议的详细演讲内容如下:


演讲大纲

1. 背景:数据智能发展史

  • 大模型数据分析产品形态,从「传统 BI」到「DI = AI+BI」

2. 数据智能相关技术发展史

  • 早期:搜索式 BI

  • 中期:基于 Bert NLP 交互式 Databot

  • 近期:LLM 技术升级下的 DataAgent 机遇 &挑战

3. LLM 技术引领数据分析领域业务演进

  • 端到端的数据分析全域升级

  • 代码补全: 临时查询取数、数据加工任务

  • SQL 工具:日常 SQL 任务开发维护(联动修改、批量更新、Bugfixed )

  • Schema 建模:智能建模(字段增强、 表达式生成、数据集摘要)

  • DataAgent 智能体 :NL2SQL 分析取数、ADA 高级分析

4. 领域模型建设 & 落地效果

  • 领域知识中心 : 资产沉淀、知识挖掘

  • 知识嵌入: 数据资产召回(表、字段、 数据口径、白皮书等)

  • LLM 领域模型精调 : CT、SFT、RL

5. 总结与展望

  • 技术侧:LLM 模型能力提升、多模态技术结合

  • 产品侧:新交互孵化、产品能力持续迭代升级


您认为,这样的技术在实践过程中有哪些痛点?

  • 在实践中,如何构建领域模型相对通用模型的优势,且需要衡量 ROI 投入产出比


演讲亮点

从 0 到 1 构建大数据领域模型,支持端到端的数据分析全域升级。不局限于智能分析取数场景,同时利用知识挖掘、生产的方式沉淀领域知识中心


听众收益

  • 从传统 BI 到 DI(AI + BI) 的转变,掌握数据分析产品的未来趋势

  • 了解 LLM 在引领数据分析进化的演进现状

  • 掌握 LLM 在数据分析全域升级的技术架构

  • 了解大数据领域模型的搭建过程


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-28 14:407345

评论

发布
暂无评论
发现更多内容

Java 命令行参数解析方式探索(三):Picocli

冰心的小屋

Java 命令行 console Parameter Picocli

Docker学习路线13:部署容器

小万哥

Java c++ Python Go Docker

AIRIOT可视化组态引擎如何应用于物联业务场景中

AIRIOT

助力企业出海!TDengine Cloud 正式入驻 AWS Marketplace

爱倒腾的程序员

时序数据库

桂林等级保护测评机构有几家?有哪些?哪里可以查到?

行云管家

等级保护 等保测评 桂林 桂林广西

直播平台源码开发提高直播质量的关键:视频编码和解码技术

山东布谷科技

软件开发 直播 视频编解码 源码搭建 直播平台源码

火山引擎DataLeap的Data Catalog系统公有云实践 (下)

字节跳动数据平台

数据库 数据中台 数据治理 数据安全 企业号 7 月 PK 榜

Java 后端有哪些不用学的技术?劝退。。。

java易二三

Java 编程 计算机 jsp

向量数据库这杯“啤酒”与“泡沫”

脑极体

AI 向量数据库

新功能 – Cloud WAN:托管 WAN 服务

亚马逊云科技 (Amazon Web Services)

Amazon VPC

使用Cloud Studio&Flutter完成全平台博客网站的搭建

坚果

flutter Cloud Studio

线程池中多余的线程是如何回收的?

java易二三

Java 编程 程序员 面试 计算机

【腾讯云 Cloud Studio 实战训练营】沉浸式体验编写一个博客系统

全栈若城

项目实战 Cloud Studio

软件测试/测试开发丨Python 内置库 OS 学习笔记分享

测试人

Python 软件测试 测试开发 os内置库

技术分享|GrowingIO分析云对ClickHouse的实践

极客天地

零代码,使用 Dify 两分钟接入企业微信 AI 机器人

Dify

开源 AI LLMOps

前端服务化和小程序容器技术的应用

没有用户名丶

Java零基础适合看的5本书!

java易二三

Java 编程 教学 新手入门

面试还不懂Redis与MySQL数据一致性,看这篇就够了

程序员小毕

Java 数据库 程序员 面试 架构师

Sanic 是什么:扩展性和性能并存的Web框架

Apifox

Python 程序员 后端 异步编程 sanci

MegEngine Python 层模块串讲(中)

MegEngineBot

Python 深度学习 开源

C++实现哈希桶

芯动大师

看头部银行保险企业如何释放数智生产力|数智新金融论坛精彩回顾

Kyligence

数智化 Kyligence Copilot

Java break语句详解!

java易二三

Java 编程 计算机 break 循环

快速玩转 Llama2!阿里云机器学习 PAI 推出最佳实践(三)——快速部署 WebUI

阿里云大数据AI技术

人工智能

saas平台定义以及优点、特点简单介绍

行云管家

SaaS 平台

用友推出基于 BIP3 的新一代 HOP 产品

用友BIP

医疗

LLM 引领数据分析进化在字节数据平台的实践|QCon北京_字节跳动_QCon全球软件开发大会_InfoQ精选文章