微博平台的RPC服务化实践-InfoQ

2014 年第一分钟，新浪微博的发布量以 808298 条再次刷新记录，第一秒微博发布量相较去年提升 55%。（数据来源：新浪科技）这是微博平台 RPC 框架 “Motan” 上线后第一次抗峰值，整体表现平稳，基本达到最初的“应用方无感知”的目标。

在 RPC 服务化这个事情上，微博平台不是第一个吃螃蟹的：早的有亚马逊和 eBay 等国外先驱，近的有 Twitter 的 finagle，淘宝的 dubbo 等等，网上各种公开的资料铺天盖地。另一方面，单纯的 RPC 调用功能实现，从技术上看其实并不复杂：client 发起调用，框架拦截调用信息，序列化，传输，server 端收到调用信息，反序列化，根据调用信息发起实际调用获取结果，再原路返回。实现这些功能可能也就三五天的事情，但在一个复杂的业务环境下，稳定可靠的应用它，才是最大的挑战。

微博平台的 RPC 服务化拆分历程始于 2013 年 7 月。在此之前，我们花了很长的时间讨论服务化的目标，主要是项目的范围：哪些问题不属于服务化项目需要解决的问题。实际的框架代码开发花了三个工程师（王喆 @wangzhe_asdf9 陈波 @fishermen 麦俊生 @麦俊生）大约一个月时间，然后花了将近两个月的时间推动在第一个业务上线：调整工程师的开发模式，调整测试流程，修改上线系统，添加监控和报警，小流量测试，灰度发布，最后才是全量上线。然后又花了一个月，在微博平台主要业务中全部上线。

微博 RPC 的一些基本的数据指标：

Motan 框架：2w+ 行 Java 代码，1w 行 test 代码，UT 行覆盖率超过 70%（当前 Motan 实现中，与微博平台内部多个系统都有功能绑定，还不具备开源条件，但开源是我们从一开始就设立好的目标之一）
支持 2 种调用方式：inJVM 和 TCP 远程调用。inJVM 方式类似 loopback 网卡：数据经过了协议栈流程处理，但没有流经真正的网络设备。inJVM 方式主要用来支持开发调试和测试，以及在 RPC 服务上线初期作为 Fail-Back 降级使用
典型业务场景下单实例 tps 极限 20k，微博平台一般采用单机双实例，即单机极限 40k
典型业务场景下平均响应时间 <3 ms，框架层额外消耗 < 0.01 ms
最大的单个核心业务日调用量超过 800 亿次

RPC 服务化的目的大约有两种：将一个大一统的应用拆分成多个小的 RPC 服务，那么目的就是为了解耦和，提升开发效率；如果是将传统的 Http 或其它方式远程调用改造成高效的 RPC 调用，那么就是为了提升运行效率。不幸的是，微博平台的 RPC 框架，需要同时达到这两个目的：既要在平台内部将一个大一统的应用拆分，又要考虑到后续向开放平台的大客户们提供 RPC 接入的可能。因此，微博平台在技术选型和方案设计上做了很多的权衡和妥协：

首先，是选择已有开源方案，还是自己开发一个新方案？选择的依据按重要程度排序：是否满足自己的核心需求，方案成熟度，认知成本（即二次开发难度）。由于是拆分一个已有的复杂应用，微博平台的一个核心需求是：应用开发方希望尽可能的平滑迁移，最好能做到应用方无感知。我们评估的多个开源方案没有一个能满足，所以只能自己做一个了
灵活性与误用的可能性：框架开发方总是有一个偏见，觉得我这个框架越灵活越好，最好每个步骤每个环节都是可以由使用方自己配置或定义。但对于一个内部强制使用的框架来说，使用方式的统一性也同样重要，换句话说，对于大部分的环节步骤，都需要保证团队内部各使用方都按同样的方式进行配置，防止误用，并降低学习和沟通成本。我们的经验是，框架开发完成后，还需要有“框架使用方”角色，将所有的灵活性限制在框架使用方的层面，避免直接暴露所有细节到最终的业务开发方
序列化方式选择：微博平台从 2011 年引入了 PB 序列化方式，以替代 cache 和 db 中的 json 文本。但在 RPC 框架上线过程中，我们选择了对 Java 对象更为友好的 Hessian2 。因为之前的 PB 序列化需要定义 proto 文件和生成代码，平台只对必要的 model 类做了支持，而 rpc 可能涉及到更多的 wrap 类，业务逻辑类等，为所有的类提供 pb 支持的工作量太大，而且后期维护困难。当然了，Motan 框架支持各种不同的序列化方式配置。
通讯协议选择：在评估了几个开源 RPC 框架的协议设计后，我们最终选择了在 TCP 链接基础上设计自己的 RPC 通讯协议，一个简单的二进制协议：定长 header 中包含一个 length 字段，然后就是二进制的 body payload，即序列化之后的 rpc request 或 response 。
集群管理：微博平台 Motan 框架当前依赖于内部开发的 Config Service（Code name Vintage，based on ZooKeeper）来进行服务注册，服务发现和变更通知。
Trace 系统：微博平台 Motan 框架当前依赖于内部开发的类似 Twitter Zipkin 的 Trace 系统（Code name Watchman）来对 RPC 请求做抽样及全量 trace。

Motan 架构图（RPC 调用数据流图）

一套新的架构在大规模的推广使用过程中总会遇到各种问题，微博平台 RPC 服务化也不例外。总结起来，我们遇到的问题包括：

整体服务的 SLA 水平降低。由于前端接口依赖多个后端 RPC 服务，每个 RPC 服务风吹草动都会直接影响接口成功率。初期改造过程中，对 RPC 服务并没有做明确的 SLA 要求，加上前端有些地方对调用超时异常兼容不够，导致前端调用失败几率增加，接口成功率降低。后来我们对每一个 RPC 服务设立了具体的 SLA 要求，并优化了前端重试及失败处理机制，从而保证了整体服务的 SLA。
必须提供稳定的测试环境。前期改造过程中，服务调用方在进行线下测试时，由于被调用方同时也在调整，导致经常出现测试环境服务不可用的情况，严重影响了调用方的测试使用。因此快速搭建一个独立的以 RPC 服务为单位的测试环境，在整个服务化过程中还是十分重要的。当前微博平台以 OpenStack 为基础搭建了一套快速测试环境分配系统，支持 RPC 服务粒度的测试环境分配。
统一的开发、测试、上线、监控流程。在初期改造中，由于涉及多个部门和开发团队，各 RPC 服务的开发测试上线流程都沿用原来团队的做法，不统一，导致多个互相依赖的 RPC 服务同时上线新版本的时候，经常出现衔接不上，无法线下集成测试，只能线上测试的情况，严重影响业务迭代速度。后来平台通过搭建一套统一的 CI 流程以及优化运维上线系统，初步解决了这个问题。

微博平台 RPC 服务化拆分的故事，2014 年依然继续：当前 Motan 框架完成了在微博平台的核心业务上线，接下来，我们的工作重点方向包括：

多语言支持：RPC 多语言支持很难，如果没有特别的理由，建议绕过。RPC 多语言有两种不同的思路：一种是类似 Thrift/PB 定义语言无关的 proto，自动生成对应语言的代码；另一种是没有 proto 定义，只有文档规范说明，业务方自己实现，或者使用框架自带的 lib 实现，类似 Hessian/MsgPack 。微博平台选择的是第二种，当前已经支持 PHP client （兼容 Yar 协议），以及 C Server 。
RPC Service 运行时环境支持：为 Java 和 C service 提供统一的运行时环境支持。对于 Java RPC Service，目标是让业务方像写 Servlet 一样写 Service，统一打成 war 包后在 Tomcat 中运行；对于 C Service，将业务代码抽离成 so，由框架进行加载。
标准化 RPC 接口改造，并推广到其它部门及开放平台使用：将当前平台内部的 Service 改造成类似微博 OpenApi 那样的标准化接口，推广给其它部门使用，并最终通过微博开放平台，开放给外部开发者使用。

微博 RPC 团队招聘进行中，欢迎感兴趣有想法的同学们一起来参与！

关于作者

唐福林（ @唐福林），微博技术委员会成员，微博平台资深架构师，致力于高性能高可用互联网服务开发，及高效率团队建设。从 2010 年开始深度参与微博平台的建设，目前工作重心为微博服务在无线环境下的端到端全链路优化。业余时间他是一个一岁女孩的爸爸，最擅长以 45°凉开水冲泡奶粉。

感谢丁雪丰对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

发布

暂无评论

InfoQ 极客传媒开发者生态共创计划线上发布会

创作场景

微博平台的 RPC 服务化实践

关于作者

评论

《人工智能:一种现代的方法（第3版）》PDF

实践出真知！华为Android面试真题解析，附超全教程文档

【小菜学网络】物理层概述

第三周学习心得

架构师训练营第 1 期 - 第十二周作业

Week 12

iOS面试高薪，进阶你会这些呢嘛？

记录一次腾讯c/c++ linux后台开发岗面试经历（面试题含答案）

shell脚本的使用该熟练起来了，你说呢？（篇三）

美团十年架构师精心分享：手写分布式消息中间件RocketMQ笔记

Kindle的又一用处

2021数字化投资规划，你做好了吗？

Tronex智能合约APP系统开发|Tronex智能合约软件开发

第三周设计作业

架构之书：审美与《重构》

生产环境全链路压测建设历程之六淘宝网2012年双十一的痛

腾讯T3大牛手把手教你！从外包月薪5K到阿里月薪15K，分享一点面试小经验

作业-第8周

复盘不止复盘，更是个人认知升级加速器？

学习笔记丨Linux中数据提取相关命令

天下武功，唯“拆”不破之MECE原则一| 技术人应知的创新思维模型 (5)

网易游戏部门Java架构师必看的“完美版”Netty源码笔记

2020年我凭借这份pdf成功拿到了阿里，腾讯，京东等六家大厂offer

架构师训练营第 1 期 - 第十二周总结

找到相同链表的点

基于 getty 的分布式事务框架seata-golang 通信模型详解

Github上标星82.1K+star面试笔记，可以帮你搞定95%以上的Java面试，已经帮助多人拿下offer

与技术总监另起炉灶的CTO | 法庭上的CTO(8)

使用Tomcat Native提升Tomcat IO效率

架构师养成第三课

TRONex智能合约APP系统软件开发

创作场景

微博平台的 RPC 服务化实践

关于作者

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载