10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

LLM 引领数据分析进化在字节数据平台的实践|QCon 北京

  • 2025-03-28
    北京
  • 本文字数:1272 字

    阅读完需:约 4 分钟

LLM 引领数据分析进化在字节数据平台的实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


字节跳动数据平台资深大模型技术专家赵晓明已确认出席并发表题为《LLM 引领数据分析进化在字节数据平台的实践》的主题分享。2021 年 LLM 大语言模型爆发,字节跳动利用 LLM 技术构建垂直化数据智能引擎,实现从规则到意图、单一到全链路、“工具”到“智能助手”的跃迁。本次演讲主要分享其数据智能发展历史、LLM 技术突破带来业务演进、大数据领域模型建设以及对未来数据分析域产品形态的演进思考。


赵晓明曾服务过华为、阿里等公司,目前负责字节跳动-Data-数据平台 领域大模型相关技术工作。从早期基于 Bert NLP 技术孵化 Databot 机器人,到近 2 年结合 LLM 能力构建大数据领域模型,经历了近些年数据智能技术的演进,在数据智能领域有丰富的落地经验。他在本次会议的详细演讲内容如下:


演讲大纲

1. 背景:数据智能发展史

  • 大模型数据分析产品形态,从「传统 BI」到「DI = AI+BI」

2. 数据智能相关技术发展史

  • 早期:搜索式 BI

  • 中期:基于 Bert NLP 交互式 Databot

  • 近期:LLM 技术升级下的 DataAgent 机遇 &挑战

3. LLM 技术引领数据分析领域业务演进

  • 端到端的数据分析全域升级

  • 代码补全: 临时查询取数、数据加工任务

  • SQL 工具:日常 SQL 任务开发维护(联动修改、批量更新、Bugfixed )

  • Schema 建模:智能建模(字段增强、 表达式生成、数据集摘要)

  • DataAgent 智能体 :NL2SQL 分析取数、ADA 高级分析

4. 领域模型建设 & 落地效果

  • 领域知识中心 : 资产沉淀、知识挖掘

  • 知识嵌入: 数据资产召回(表、字段、 数据口径、白皮书等)

  • LLM 领域模型精调 : CT、SFT、RL

5. 总结与展望

  • 技术侧:LLM 模型能力提升、多模态技术结合

  • 产品侧:新交互孵化、产品能力持续迭代升级


您认为,这样的技术在实践过程中有哪些痛点?

  • 在实践中,如何构建领域模型相对通用模型的优势,且需要衡量 ROI 投入产出比


演讲亮点

从 0 到 1 构建大数据领域模型,支持端到端的数据分析全域升级。不局限于智能分析取数场景,同时利用知识挖掘、生产的方式沉淀领域知识中心


听众收益

  • 从传统 BI 到 DI(AI + BI) 的转变,掌握数据分析产品的未来趋势

  • 了解 LLM 在引领数据分析进化的演进现状

  • 掌握 LLM 在数据分析全域升级的技术架构

  • 了解大数据领域模型的搭建过程


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-28 14:408062

评论

发布
暂无评论

C语言宏定义中的#和##

芯动大师

3D渲染速度慢,花重金买显卡还是用云渲染更划算

3DCAT实时渲染

实时渲染云

2023-07-16:讲一讲Kafka与RocketMQ中零拷贝技术的运用?

福大大架构师每日一题

福大大架构师每日一题

JMeter笔记14 | JMeter场景设计和设置

单元测试 Jmeter 性能测试 自动化测试 接口测试

Antlr4如何自动解析得到AST而不是ParseTree

canonical

ANTLR 低代码 dsl antlr4

申请 GPT4.0Key!含详细步骤

石云升

AIGC ChatGPT GPT-4

华为云ROMA Connect 的智能集成 – 现代企业数字化转型的新利器

云计算 华为云 华为开发者大会

新一代iPaaS全域融合集成平台ROMA Connect HDC.Cloud 2023内容值得再读!

华为 华为云 华为开发者大会2023

从0到1:跑团小程序开发心得笔记

CC同学

我与OpenHarmony| 社区征文

坚果

年中技术盘点

CnosDB x LangChain: 聊着天来查询时序数据库

CnosDB

开源 时序数据库 CnosDB

人工智能自然语言处理:N-gram和TF-IDF模型详解

汀丶人工智能

人工智能 自然语言处理 nlp tf-idf N-gram

Nautilus Chain NautDID NFT 将上主网,Layer3 数字身份时代开启

股市老人

来自内部有很多需求,如何协调处理这些需求?

Bonaparte

产品 产品设计 产品思维 产品需求 内部需求

IoTOS-v1.5.3 新增 智能诊断&会话记录导出

开源物联卡管理平台-设备管理

物联网平台 IoT 开源物联网 国产开源 开源项目介绍

小设计,大作用——谈谈防腐层的妙用

JAVA旭阳

Java

明代元素时装小姐姐【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

学校招生报名小程序开发笔记(一)

CC同学

人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法| 社区征文

汀丶人工智能

LoRa NLP 大模型 LLM模型 年中技术盘点 Freeze微调

领导和团队的自主权——《敏捷实战-破解敏捷落地的60个难题》读后感(二)

Bruce Talk

敏捷开发 Agile

代码随想录Day18 - 二叉树(五)

jjn0703

少年侠客【InsCode Stable Diffusion美图活动一期】 | 社区征文

度假的小鱼

Stable Diffusion 年中技术盘点

可爱小猫猫【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

Ins风韩国美少女【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

CodeArts Check系统规则集还不够?带你体验如何创建、启用自定义规则集

云计算 开发者 代码质量 华为云 代码检查

大佬带你体验华为云代码检查服务CodeArts Check

云计算 开发者 软件开发 华为云

LLM 引领数据分析进化在字节数据平台的实践|QCon北京_字节跳动_QCon全球软件开发大会_InfoQ精选文章