百度网页搜索部从2013年开始积极投入开源工作,期间先后开源了sofa-pbrpc,Tera和MIP等精品技术。Tera是百度网页搜索部开源的大型分布式表格系统,其数十PB量级的数据存储和百万QPS的实时数据访问能力,支撑着百度搜索引擎的链接存储、实时索引筛选、实时用户行为分析等多个核心系统。本次技术分享为大家深入介绍Tera的架构设计与实践以及Tera在百度搜索引擎中的应用。
郑然:百度网页搜索部资深工程师。2009 年加入百度网页搜索部,在网页搜索部工作的 7 年时间里,一直从事百度搜索引擎的架构研发工作,先后负责过百度搜索引擎的大规模索引构建工作,大数据离线平台架构工作,微服务架构以及大规模在线服务治理等工作。目前主要做 Tera 分布式存储系统的研发工作。
主题摘要:Tera 是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问,百度使用按行键、列名和时间戳全局排序的三维数据模型组织数据,使用多级 Cache 系统,充分利用新一代服务器硬件大内存、SSD 盘和万兆网卡的性能优势,做到模型灵活的同时,实现了高吞吐与水平扩展。郑然在演讲过程中会详细介绍 Tera 的架构设计,包括数据模型,整体架构,高可用技术和性能优化等内容。
高深:百度技术沙龙超级棒。@InfoQ
Warning: 都是干货。@InfoQ
徳晨:讲师很棒,思路清晰,学习了@InfoQ
#命中you¥:#百度技术沙龙#希望多多举行这样的分享会,支持支持,前路漫漫,我们还有很长的路要走,希望百度引领我在技术的道路上越走越远。@InfoQ