百度技术沙龙第71期回顾:揭秘支撑百度百亿级实时搜索的核武器Tera技术

百度网页搜索部从2013年开始积极投入开源工作,期间先后开源了sofa-pbrpc,Tera和MIP等精品技术。Tera是百度网页搜索部开源的大型分布式表格系统,其数十PB量级的数据存储和百万QPS的实时数据访问能力,支撑着百度搜索引擎的链接存储、实时索引筛选、实时用户行为分析等多个核心系统。本次技术分享为大家深入介绍Tera的架构设计与实践以及Tera在百度搜索引擎中的应用。

本期讲师介绍

  • 主题一:Tera 大型分布式表格系统的架构设计与实践

    郑然:百度网页搜索部资深工程师。2009 年加入百度网页搜索部,在网页搜索部工作的 7 年时间里,一直从事百度搜索引擎的架构研发工作,先后负责过百度搜索引擎的大规模索引构建工作,大数据离线平台架构工作,微服务架构以及大规模在线服务治理等工作。目前主要做 Tera 分布式存储系统的研发工作。

    主题摘要:Tera 是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问,百度使用按行键、列名和时间戳全局排序的三维数据模型组织数据,使用多级 Cache 系统,充分利用新一代服务器硬件大内存、SSD 盘和万兆网卡的性能优势,做到模型灵活的同时,实现了高吞吐与水平扩展。郑然在演讲过程中会详细介绍 Tera 的架构设计,包括数据模型,整体架构,高可用技术和性能优化等内容。

  • 主题二:Tera在百亿级实时搜索架构中的应用

    齐志宏:现任百度网页搜索基础架构 & 调研架构团队技术经理。曾供职腾讯,2012 年加入百度网页搜索,从事搜索架构相关的技术管理工作,目前主要负责百度海量数据存储系统相关工作。

    主题摘要:演讲重点介绍 Tera 作为核心技术,是如何支撑百度链接存储,实时索引筛选以及实时用户行为分析等多个重要系统的。

内容回顾

    • 高深:百度技术沙龙超级棒。@InfoQ

    • Warning: 都是干货。@InfoQ

    • 徳晨:讲师很棒,思路清晰,学习了@InfoQ

    • #命中you¥:#百度技术沙龙#希望多多举行这样的分享会,支持支持,前路漫漫,我们还有很长的路要走,希望百度引领我在技术的道路上越走越远。@InfoQ


现场图片展示

  • 火爆的沙龙现场
  • 认真听取参会者的问题
  • 提问题的参会者
  • 71期百度沙龙圆满谢幕
                                
                                          

 

                                
                                          

 

-->