写点什么

百度技术沙龙第 20 期回顾:如何设计优良的日志分析系统(含资料下载)

  • 2011-11-20
  • 本文字数:2903 字

    阅读完需:约 10 分钟

在 11 月 19 日由百度主办、InfoQ 策划组织实施的第 20 期百度技术沙龙活动上,来自百度基础架构部资深工程师陈晓鸣、一淘网数据部高级技术专家张茂森分别分享了各自在日志分析和数据统计领域所取得的成果及经验,话题涉及百度海量日志分析架构及处理经验分享,以及淘宝量子统计架构设计中的核心点等。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:百度海量日志分析架构及处理经验分享演讲稿下载

来自百度基础架构部的陈晓鸣第一个为大家分享,分别从日志分析基本过程、百度日志分析成长历程、深入 LSP 平台和深入 DISQL 语言等几个部分为参会者进行了讲述。日志可帮助我们更加清晰地了解用户(地域来源、跳转来源、所使用的终端等)和了解自己(访问量、易用性、可用性等)。日志分析的基本过程主要分为四个阶段:

  • 线上(提取与处理)
  • 预处理(解析与过滤)
  • 计算(预定义计算、Ad hoc 查询)
  • 使用(报表、图表以及回馈线上等)

接下来,陈晓鸣介绍了百度日志分析的成长历程,还分别从平台架构、平台 UI 以及三种编辑模式(简单模式、DQuery 模式、复杂模式)等角度对 LSP 平台进行了讨论。 陈晓鸣重点讲述了 DISQL 部分,他提到 DISQL 具有以下几个特点:

  • 用 PHP 表达的类 SQL 逻辑 (非常简约)
    • 封装所有 SQL 算子的 M/R 分布式实现:分组、表连接、行列过滤、集合操作、输入输出格式转换
  • 通过连续函数调用表达 DAG 数据流
    • 自动翻译为一轮或多轮 MapReduce
    • 也可翻译为单机计算或数据流图
  • 用逻辑顺序而非 SQL 顺序表达逻辑
  • 支持 PHP 自定义函数(简洁)
  • 支持 C++ 自定义函数(同样简洁 + 高效)和 C-Runtime NEW!
    • 全自动高效内存管理 (RAII + 内存池)
    • 廉价对象复制(Copy On Write)
    • 字段操作翻译为数组操作,无字典查找 (schema 推导)
    • C++ 的性能,PHP 的开发代价!

处理阶段主要可分为前端语言处理、中间语言翻译和运行时这三个阶段,其中中间语言处理主要负责对数据流图做多次等价交换,其中涉及到正规化、算子替换、优化、阶段划分、Schema 推导和字段偏移量推导以及代码生成这几个步骤。

最后陈晓鸣对演讲进行了总结并回答了现场观众的提问,同时还为下月在 Hadoop in China 大会中的演讲进行了预告,届时,他将对 DISQL2.0 方面的话题进行演讲。

主题二:淘宝量子统计架构设计中的核心点演讲稿下载

一淘网张茂森(花名张中)第二个为大家分享,演讲主要涵盖量子统计面临的挑战、量子统计架构设计以及量子统计的技术研究方向这几部分。张中提到,量子统计主要面临的挑战有:

  • 成本
  • 高并发数据分析网站的 C10K 问题
  • 关系型数据库和实时数据计算结果的异构融合
  • 复杂的数据查询接口逻辑和开发效率、查询效率、和正确性
  • 分布式计算和任务管理

从数据的角度来看,实时计算处理数据量在 3T/ 日,离线分布式计算处理超过 20T/ 日,实时结果请求 1700W/ 日,服务超过百万的淘宝卖家。

在量子数据中间层,其核心是由 Nginx 和量子贡献的扩展模块组成,技术核心点主要涉及非阻塞缓存、非阻塞数据库访问、实时引擎访问接口和单元测试。异构数据的融合通过 LZSQL 来实现,Lua 则作为粘合剂主要解决非阻塞程序编写困难,以及提升数据二次处理能力。

此外,张中还为大家分享了实时流计算框架 SuperMario,实时计算、查询引擎,离线分布式计算和任务调度管理以及数据分析网站的运维等话题。最后,张中提到了量子的技术研究方向:

  • 多维数据分析
    • 将昂贵的数据分析技术分享给更多的用户
    • 实时滑动窗口的多维分析
    • 海量数据的多维分析
  • 数据可视化
    • 教育和培养用户解读数据
    • 更直观的展现数据的价值
  • NoSQL 产品在实时计算中的应用
    • 解决 K-V 服务扩展性的难题
    • 解决数据实时转换的难题
    • 量子和 OceanBase 的合作

Open Space(开放式讨论环节)

和以往的环节一样,​为了让参会者能够有更多的时间进行相互的交流,本次活动依然设置了 Open ​Space(开放式讨论)环节。除了讲师百度​陈晓鸣、一淘网张中外,张俊、江畅、姚海涛和喻先兵也参与了小组讨论。在 Open Space 的总结环节,几位话题小组长​分别对讨论的内容进行了总结:

陈晓鸣分享了“百度海量日志分析技术”的话题,继续讨论了 LSP 平台及 DISQL 在实现上的一些细节,对相应的技术点做了解答。

张中分享了“开源数据库”的话题,讨论了实时计算、数据仓库和多维数据分析相关的问题,针对大家比较关注的,如何从业务层面让数据汇总的更快、计算的更快、如何让系统运行地更稳定等问题进行了讨论。

张俊分享了“推荐系统”的话题,主要围绕推荐系统如何去设计,如何去运算和评价等问题进行了讨论。

江畅分享了“数据开发”的话题,分享了各自在自动化运维中的经验以及如何利用自动化工具来实现更新。

姚海涛分享了“基于 Twitter Storm 的实时计算”的话题,讨论了基于 Twitter Storm 构建实时计算系统时所遇到的问题及相关的经验分享,就具体的分布式存储、多维度数据等问题进行了探讨。

特别感谢从广州专程来参加本次活动的喻先兵,他来自于多玩游戏,本次还在 OpenSpace 环节与大家一起分享了“分布式存储与计算”的话题。

会后,一些参会者也通过新浪微博分享了他们的参会感受:​​

@kersus :在#百度技术沙龙#中,和 @math1141 一起过来听日志分析技术。下午一点四十五到居然就没位置了,人山人海,IT 果然是劳动力密集型行业啊。

@许杨毅:今天的感想就是,一淘和百度在利用开源技术和自我创新实现 ETL 这类经典概念,同时实时流式计算越来越形成自己的技术特征和多竞态的技术形态,storm 只是一个样本,互联网技术圈的人们最为充满活力所言非虚。今天的技术沙龙百度和淘宝的朋友 share 了两条泾渭分明的技术路线,左边是 HCE 和 C++, 右边是 JAVA 和 SuperMario,淘宝的实时 streaming-computeing,关注 @陈晓鸣在百度 很久了,但是 @maosen 的确是第一次见,技术无优劣,适应有侧重,一个是私有云,一个是公有服务,数据分析是个经典的话题,若有经常的线下沙龙则更加好,期待能形成组织和团体,一淘利用 JS/ajax 卸载服务端数据分析逻辑和展现体现了很好的成本意识,利用 LUA 作为粘合剂搭建服务平台也是有益的内部工作;百度则通过 DISQL 层来为数据分析提供内部平台化服务。

@haitao_yao #百度技术沙龙# 技术实力还有很大提升的余地,看到差距,同时也看到方向。

@张乙宁#百度技术沙龙# 一淘的分享:运维的压力会是制约一个数据团队发展的重要因素。可惜国内互联网公司基本都不重视。作为一个运维工程师,真是悲哀。

@帝都小肥羊 @maosen 今天的技术沙龙讲的很给力啊,清楚的描述了整个技术架构体系,赞!要是时间多点,各个模块就能讲的更细致,就更完美了。另外, @breezelark 你又被提到啦,堪比专业 DBA 的美女前端。

@叫我戴夫:昨天技术沙龙,百度的一个人说他们编了一个叫 DISQL 的编译器做 log 的分析和提取,一淘的人说他们用 Hive,我想这就是做 C 和做 java 的人做事风格的差异吧。c 总是要把东西做的复杂,java 总是朝着偷懒的方向走。不管怎样,对于还停留在 cron awk 的我,真的还有很长的路要走。

有关百度技术沙龙的更多信息,可以通过新浪微博关注 ** @百度技术沙龙,或者加入百度技术沙龙微群 **,InfoQ 上也总结了过往 19 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览阅读

2011-11-20 19:278886
用户头像

发布了 156 篇内容, 共 55.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

Uniapp开发鸿蒙应用时如何运行和调试项目

幽蓝计划

时序数据库、实时数据库与实时数仓:如何为实时数据场景选择最佳解决方案?

镜舟科技

数据分析 数据处理 时序数据库 实时数据库 实时数据仓库

如何用好“对话式编程”?牢记这十二条策略

Baihai IDP

程序员 AI LLM AI Agent AI 编程

最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人 | 社区来稿

声网

迁徙:微信鸿蒙版的长征

脑极体

AI

《算法导论(第4版)》阅读笔记:p83-p85

codists

算法

等保测评2025 版新报告模板,是以哪个时间节点为准?

黑龙江陆陆信息测评部

新一代SRE:AI、可观测与未来丨暨2025第三届中国SRE大会,邀您共赴科技盛宴!

雅菲奥朗

Nagarro发布多项财年业绩

财见

LED显示屏与OLED显示屏的天壤之别

Dylan

技术 LED LED display OLED LED屏幕

区块链ETF系统的开发步骤

北京木奇移动技术有限公司

区块链技术 软件外包公司 区块链ETF

华为云超节点创新算力基础设施,推动千行万业AI应用开发落地

轶天下事

《算法导论(第4版)》阅读笔记:p76-p81

codists

算法

全平台开源即时通讯IM聊天框架MobileIMSDK的服务端开发指南,支持鸿蒙NEXT

JackJiang

网络编程 即时通讯 IM

StarRocks MCP Server 开源发布:为 AI 应用提供强大分析中枢

StarRocks

数据分析 OLAP StarRocks MCP Server

易安联完成C1轮融资,加速领跑国内零信任安全市场化

权说安全

零信任

RAG创始人关于RAG Agent的10个思考(上)

Bruce Talk

AI RAG知识库

StarRocks Community Monthly Newsletter (Apr)

StarRocks

数据库 数据分析 存算分离 StarRocks 数据查询

10K Stars 成就达成,StarRocks 开启下一个里程碑!

StarRocks

数据库 AI OLAP StarRocks

Amazon Q 从入门到精通 – 测试与重构

亚马逊云科技 (Amazon Web Services)

根据数据表快速生成原型图的工具

执于业务

《算法导论(第4版)》阅读笔记:p82-p82

codists

算法

RAG创始人关于RAG Agent的10个思考(下)

Bruce Talk

AI RAG知识库

为什么在中国开源软件赚不到钱?

雅菲奥朗

#开源

MES如何破解工厂交期困局?MES让设备主动报工,生产过程实时可控!

万界星空科技

数字化 制造业 智能制造 mes 万界星空科技mes

打造了一个未来感十足的图书管理 App 个人页面

繁依Fanyi

DevEco重大更新快来体验吧

龙儿筝

ArkUI-X跨平台框架接入指南

龙儿筝

腾讯云COS MCP Server + CodeBuddy ,让你的idea 不止停留在想象中...

六月的雨在InfoQ

MCP MCP Server MCP头号玩家

我这是“小作坊”,没那么多时间为爱奉献!

程序员郭顺发

MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施

Alter

AI 大模型 昇腾AI MoE

百度技术沙龙第20期回顾:如何设计优良的日志分析系统(含资料下载)_百度_贾国清_InfoQ精选文章