百度技术沙龙第71期回顾：揭秘支撑百度百亿级实时搜索的核武器Tera技术

百度网页搜索部从2013年开始积极投入开源工作，期间先后开源了sofa-pbrpc，Tera和MIP等精品技术。Tera是百度网页搜索部开源的大型分布式表格系统，其数十PB量级的数据存储和百万QPS的实时数据访问能力，支撑着百度搜索引擎的链接存储、实时索引筛选、实时用户行为分析等多个核心系统。本次技术分享为大家深入介绍Tera的架构设计与实践以及Tera在百度搜索引擎中的应用。

本期讲师介绍

主题一：Tera 大型分布式表格系统的架构设计与实践

郑然：百度网页搜索部资深工程师。2009 年加入百度网页搜索部，在网页搜索部工作的 7 年时间里，一直从事百度搜索引擎的架构研发工作，先后负责过百度搜索引擎的大规模索引构建工作，大数据离线平台架构工作，微服务架构以及大规模在线服务治理等工作。目前主要做 Tera 分布式存储系统的研发工作。

主题摘要：Tera 是一个高性能、可伸缩的结构化数据存储系统，被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问，百度使用按行键、列名和时间戳全局排序的三维数据模型组织数据，使用多级 Cache 系统，充分利用新一代服务器硬件大内存、SSD 盘和万兆网卡的性能优势，做到模型灵活的同时，实现了高吞吐与水平扩展。郑然在演讲过程中会详细介绍 Tera 的架构设计，包括数据模型，整体架构，高可用技术和性能优化等内容。
主题二：Tera在百亿级实时搜索架构中的应用

齐志宏：现任百度网页搜索基础架构 & 调研架构团队技术经理。曾供职腾讯，2012 年加入百度网页搜索，从事搜索架构相关的技术管理工作，目前主要负责百度海量数据存储系统相关工作。

主题摘要：演讲重点介绍 Tera 作为核心技术，是如何支撑百度链接存储，实时索引筛选以及实时用户行为分析等多个重要系统的。