中国顶尖技术团队访谈录(2021年第一季)

本次的《中国顶尖技术团队访谈录》·2021第一季精选了来自中国移动、vivo、苏宁、腾讯、网易等公司技术团队在技术落地、团队建设方面的实践经验及心得体会。InfoQ希望通过这样的记录,能够让一家家品牌背后的技术人员形象更加鲜活,让更多人感受到他们的可爱与坚持。
用户头像
下载此书
中国顶尖技术团队访谈录(2021年第一季)

封面故事


对话中国移动:支撑数亿用户的基础设施如何实施云原生改造?


重磅访谈


专访骨灰级开源爱好者吴晟:开源没有黑魔法,两年后泡沫将会破灭


技术实践


vivo AI 计算平台弹性分布式训练的探索和实践


苏宁基于服务层知识图谱的真假告警判定


腾讯云如何破解落地难题,成功实践 DevSecOps?


基于 Impala 的网易有数 BI 查询优化总结


技术管理


要打造高效团队,你必须掌握这种方法


创新研究


智源联合清华开源 FastMoE:首个支持 PyTorch 框架的 MoE 系统,万亿 AI 模型基石


封面故事|对话中国移动:支撑数亿用户的基础设施如何实施云原生改造?

嘉宾:张春、魏宝辉、郑文雯、赵淳


采访:钰莹、郭蕾


编辑:钰莹


导语:如今,数字化转型已经成为绝大多数企业重要且迫切的发展战略之一。在这样的战略之下,企业上云成为大势所趋,基于容器、微服务、DevOps、服务网格等新型云原生技术正在深刻推动着企业 IT 变革,以实现全面数字化转型。而中国移动作为这批浪潮中的先行者,早已全面拥抱云原生技术并自主创新研发了磐基容器云、磐舟云交付平台。本期顶尖技术访谈录,InfoQ 走进中国移动信息技术中心,探索云原生变革背后的故事。


近几年,数字化转型和云原生改造成为业界两大热词,运营商也开始了与技术的又一次较量。作为支撑数亿用户日常生活的必备基础设施平台,其改造难度是非常大的。本文,InfoQ 走进中国移动信息技术中心,一起聊聊他们如何看待数字化转型与云原生的意义。为什么要做云原生改造?决定改造后,人从哪找?团队 KPI 咋定?流程是什么样的?传统企业有必要自研吗?转型过程中有哪些注意事项…


为什么需要云原生?如何推进?


从 2008 年开始,中国移动就一直在探索转型升级之路,试图抓住“数字经济”带来的发展机遇。2008 年,电信运营商按照“六合三”的方案进行了重组,进一步加剧了三大运营商之间的竞争,中国移动凭借着 2G 时代语音业务的网络效应迅速成为佼佼者。


随着 3G 时代的到来,整个行业又开始面临语音业务增长缓慢和收入减少的压力。2013 年 12 月,中国移动获得固网宽带牌照成为全业务运营商。至此,三家运营商正式开启全业务领域竞争。


4G 时代,面对更加激烈的竞争局势,中国移动提出“三条曲线”的发展策略,即:第一条曲线是中国移动语音和短彩信;第二条曲线是流量经营,主要是依靠 4G 的拉动;第三条曲线则是数字化服务。中国移动明确从网络、终端和营销三个方面向流量经营转型,并且更注重第三条数字化服务曲线的发展。


5G 时代,基于 5G 数字化网络基础设施,中国移动打造泛在接入、泛在联接、泛在算力的信息高速,深化智慧运营创新,实现体验经营跃升,更加有效保障数字经济战略落地。


2019 年,中国移动决定从通信服务向空间更广阔的信息服务转型升级,围绕“力量大厦”的总体思路,以高质量发展为主线,打造基于规模的融合、融通、融智价值经营体系,构建高效协同的能力、合力、活力组织运营体系。


对于体量巨大的中国移动来说,转型并不容易,这背后到底有哪些考虑呢?


InfoQ:您对数字化以及数字化转型的理解是什么?这在中国移动内部是如何执行的?


A:我之前也在想到底什么是数字化,“转型”二字又意味着什么。众所周知,中国移动是运营商,而运营商最开始做的事情在我看来就是数字化的,就是跟数字打交道的。那么,数字化转型是什么呢?


转型意味着变革,我觉得可以从三个层面理解:一是战略层面的转型,公司全力推进智慧中台构建,持续汇聚共性能力、对内支撑更多的业务场景、对外实现能力共享,促进公司数智化运营和全社会数智化转型;二是技术层面的转型,虽然以前也用到很多数字化的技术,但传统的 IT 技术与现在的云计算、人工智能相比有很大不同,解决的问题和关注的重点都不相同,这是技术层面的转型;三是业务转型,运营商早期的主要业务是电话、短信,现如今随着 5G 的出现,我们的业务越来越丰富。


综上,中国移动明确了总体发展目标,即创世界一流企业,做网络强国、数字中国、智慧社会主力军。确立通过推进数智化转型,实现高质量发展的发展主线,结合经济社会数字化转型“五纵三横”的特征,形成中国移动的战略内核。


围绕战略目标,我们开始更加关注数字化的价值。以往我们关注的是技术本身可以解决的问题,现在把重心更多地放在数字化如何赋能业务发展,如何赋能商业模式转型。这对 IT 提出了更高要求——即需要通过组织变革来支撑更高的目标,实现更高能力的锻造。


注:五纵三横指经济社会数字化转型呈现“五纵三横”的新特征。其中的五纵指的是基础设施数字化、社会治理数字化、生产方式数字化、工作方式数字化、生活方式数字化;三横指的是线上化、智能化、云化。


InfoQ:我们做云原生化改造的背景是什么?这和数字化转型的关系是什么?


A:多年前,我们的 IT 系统承载在小型机、磁盘阵列、传统商业数据库上,传统的 IT 架构,应用横向扩展能力较差;2008 年起,我们从小型机向 X86 演进,大型的企业级应用向分布式服务化架构升级;2010 年左右,我们引入虚拟化技术,大力推进基础设施云化,业务规模化扩展和灵活性得到提升,实现了底层资源的共享;2015 年前后,我们逐渐从虚拟化向容器化过渡,不只是基础架构在快速变革,应用架构和交付也在升级,把大型复杂软件应用拆分成多个简单应用,各应用之间松耦合,从而降低了系统复杂度,还可以做到独立发布部署、独立扩展和跨语言编程,当然这一切的变化也将驱动我们研发、运维工作模式的转变。


在我看来,以往通过虚拟化技术将一台 X86 服务器虚拟化为多个虚机,当成物理机使用,这样的模式只解决了资源共享的问题,而云化不仅仅是基础设施和平台的变化,应用也需要做出调整,在架构设计、开发方式、部署维护等各个阶段都基于云的特点进行构建。云原生正是以应用为中心,应用开发之时便基于云的方式。只有这样才能更好地发挥出云的优势,更好地赋能业务发展。具体来讲,我们对于应用的要求主要是指:


1.敏捷。随着市场的快速发展,竞争日益激烈,对新功能的上线速度要求越来越高,我们需要化解高速的业务发展和系统稳定之间形成的矛盾,让“大象”能够起舞。


2.海量。我们需要支撑更多的互联网新业务、新玩法,需要足以支撑海量、高并发、高性能的业务系统架构。


3.简单。提高运维效率,解放劳动力。


在这样的背景下,中国移动 IT 系统建设全面拥抱云原生技术。


通过云原生改造,原本直接运行在虚拟机或者物理机上的业务系统,如今以高内聚、低耦合的应用独立运行在在容器里。以前一个新的应用系统需要从下到上完全自己重新搭建,现在大部分底层共性能力可以复用,极大地提高了开发效率,降低了成本,这就是我们所说的厚 PAAS、薄应用。


根据多年的实践经验,我们打造了磐基容器云,以及磐舟云交付平台,面向内部 IT 系统提供承载和服务支撑,主要包括面向客户服务和业务管理的业务支撑系统(简称 BSS 或 B 域)、面向通信网络管理的网管支撑系统(简称 OSS 或 O 域)、面向企业内部管理的管理信息系统(简称 MSS 或 M 域)。


InfoQ:您方便介绍下整个云原生的改造历程是什么样的?


A: 中国移动是首个完成大规模、分布式电信业务支撑系统 X86 化、容器化改造的运营商,领先同行业近两年时间。最早启动云原生改造的系统叫网状网,这个系统支撑了 200 多个业务平台,700 多个业务,包括金融类、互联网类、全网业务订购类、客服类、实时鉴权类、区块链等业务,峰值交易量为 75 万笔/分钟。完成改造后,在高可用、故障自愈等方面效果尤为突出,当应用模块升级或某个服务不可用时,服务可快速从容灾节点拉起,用户访问无感知。


另一个实现云原生改造的系统是中国移动集中化物联网支撑系统。这个系统是物联网产品集中化管理能力一点接入、统一运营的业务支撑系统,提供了端到端的业务受理、服务开通、计费账务和综合结算等能力,支撑亿级连接高效运营。系统采用微服务化的设计理念,基于我们团队自研的磐基容器云平台,快速构建敏捷开发和智能化运营的容器化业务系统。


截至目前,共有 40 多个系统运行在磐基容器云上,集群规模约 6600 台服务器,业务容器数近 4 万个。


在业务迁移上云方面,我们总结并形成标准化的上云规范和云原生改造优秀实践案例。跟业务部门对接的过程中,前期会有个布道的过程,对租户进行相关培训,同时了解业务需求,完成梳理架构、容量预估,提供针对性的解决方案和指导;其次,业务部门采用微服务的设计理念,遵循“前端横向整合,后端纵向解耦,服务提供与应用分离”的原则进行架构设计,完成容器化改造及微服务拆分;最后,逐步分离松耦合业务,完成部分流量切换验证,最终完成业务部署上线。在指导业务迁移上云的过程中,我们非常重视提前介入和收尾复盘,做到三同步:同步监控、同步高可用、同步安全。


团队人员及 KPI 制定


如火如荼的云原生世界,大部分人才被云厂商招致麾下,传统企业如何组建合适的研发团队呢?


InfoQ:您方便简单介绍下目前我们部门的人员组成吗?主要工作是什么?


A:我们部门是中国移动信息技术中心(公司)下属研发创新中心,还有一个牌子叫平台能力共享中心。目前部门共 300 余人,作为公司创新驱动的引领者、核心能力的内化者、技术演进的研究者、共性能力平台的运营者、核心测试能力的提供者,全面负责 IT 领域 PAAS、AI、区块链、IPA 等平台级产品的研发、测试、维护和运营推广;云原生平台的研运工作是我们部门的核心工作之一。


InfoQ:确定改造之后,承担云原生改造的团队人员大概来源是什么?


A:云原生平台核心研发团队近 50 人,包括架构设计、开发、运营、运维人员,承担整体架构设计,演进方向及新技术跟踪,容器云、DevOps 以及智能运维等模块研发集成,为各业务部门提供云原生改造解决方案咨询、支撑、部署和维护服务。


团队成员一部分来源于公司内部, 在建设电信业务过程中多年积累的 IT 人才,抽调并重组,另一部分来源于社会招聘和校园招聘,我们也通过猎头专门招聘有经验的架构师。


我们更希望团队员工知识更加全面。不仅对容器等云原生技术方面有要求,也希望员工更多的了解中国移动为什么要做数智化转型,要对运营商业务应用架构演进敏感,热爱新技术,真正解决好现有系统的问题。综上,我们对人才的整体要求可以概括为“四懂”:懂需求,懂市场,懂客户,懂技术。


InfoQ:您方便介绍下内部是如何对人员进行培训的吗?


A:数字化战略方面,公司内部会定期组织“知识赋能行动”等系列培训;云原生技术分享方面,我们会请内部人员或者外请一些大厂的技术专家做分享;应用上云改造和实践方面,基于磐基容器云平台,为租户提供体系化的培训课程,包括 K8S 应用管理及云原生技术实践。后面也会逐步完善认证体系,为架构设计、开发、运维人员提供相应的培训及认证服务,云原生技术更新太快,需要我们的员工终身学习。


InfoQ:业务方的态度如何?


A:基于技术发展趋势和公司战略要求,各租户对于数字化转型意义的理解在逐渐深化,目前公司有序推进系统全面上云,各部门积极配合 IT 系统云原生改造。


通过云原生改造,租户发现上云可以明显提升资源使用率、提高应用高可用性,加快迭代上线速度;另外,部分开发运维工作可以交由云原生平台实现,业务部门可以更专注业务创新,创造更多的业务价值。


云原生改造的整个过程对业务人员来说,也是学习提升、能力锻造的过程,毕竟,云原生技术是未来的发展趋势。


InfoQ:你们整个团队的 KPI 是什么?


A:我们团队的 KPI 有以下三个部分:一是研发方面,重视需求采集分析,以应用为中心规划、设计产品,解决业务问题并且完成升级,跟随云原生社区的技术发展,提升产品开发、交付效率。二是推广应用方面,整个平台在公司内部支撑系统的规模要不断的提升,成为 IT 系统的技术底座。三是稳定支撑方面,要求能快速定位故障,并对故障快速排查解决(单体应用或 SOA 架构,故障定位相对容易,应用微服务化改造后存在大量的微服务,故障很难快速定位、对症下药,需要构建完善的监控体系和端到端服务跟踪工具;我们想到另一个比较好的解决方案是智能运维——AIOps,进一步提升故障定位和解决效率),真正实现我们团队提出的“乘舟上云,稳如磐基”。


InfoQ:公司层面对完成云原生改造有什么目标吗?


A:我们的目标是通过磐基容器云平台和磐舟云交付平台的打造,助力 IT 系统完成云原生改造,逐步实现全云化演进。


对于新建应用,要求云上构建;对于存量的业务系统,云原生改造是循序渐进的。结合云原生价值和业务痛点,对于需求频繁变更、大规模、分布式架构的业务支撑系统优先改造;对于一些缺乏开发团队维护的遗留系统、需求很少变化,以及业务逻辑耦合紧密、比较大的存量单体应用,暂缓改造。


另外,考虑到改造代价和价值, 全部“重构应用代码”,并不是应用改造的唯一途径,对很多仍然在发挥作用的存量应用来说,重构封装应用代码的“应用运行时”也是一种更稳妥、有效的形式。


自研的动力是什么?如何选型?


在转型的过程中,中国移动基于云原生的理念,采用 K8S 和容器技术,自主研发了磐基容器云以及磐舟云交付平台。磐基容器云已经获得 CNCF 的一致性认证和可信云容器平台的认证,磐舟云交付平台也获得平台级的 DevOps 解决方案先进级认证。目前,磐基容器云平台已经支撑内部 IT 系统 40 余个,覆盖 BMO 三域;磐舟云交付平台也逐步规模化运营,已有 30 余个系统正在使用这个平台,实现了 X86、ARM 双平面研发运行,大大增强了我们对 IT 系统软件资产的自主可控能力。



磐基容器云平台架构图


作为运营商,中国移动为什么有动力自研技术呢?


InfoQ:作为传统企业,为什么我们有动力自研核心技术?




A:可以从两个层面来看,在宏观层面,国家鼓励自主可控和科技创新,我们中国移动积极响应国家号召,大力推进核心能力内化,增强“端到端”自主可控能力,不断培养科技创新人才。


在需求层面,外部产品更加通用,平台的定制化程度及开发响应速度比较弱;不能很好的满足我们的业务场景、运营运维流程、研发规范要求,业务系统共性能力也很难得以快速的沉淀。


云原生改造的道路上,在构建、发布、运行三大领域都有更多的开源项目可以选择,我们可以站在巨人的肩膀上,引入、集成、优化和增强,让自研过程更加轻松。


InfoQ:自研之前有做过选型对比吗?


A:以往,合作伙伴开发的业务支撑系统在开发,运行过程中用到了容器云产品。在生产过程中,我们发现通过容器云平台很好的解决了弹性伸缩、故障自愈、容灾等问题;同时,我们对 K8S 的特性、包括一些关键组件的选型有了一定的积累。在此基础上,我们开始自研,并对 K8S、容器底层技术,做了一些封装和优化,以提高其稳定性和安全性。


事实上,PaaS 的范围太大了,也不可能完全自研。我们也会根据租户的需求,引入部分优秀组件快速地解决生产问题,如国产数据库、国产中间件以及容器安全方面的能力。我们会通过联合创新的方式,引入一些合作伙伴的高质量产品,实现生态链企业合作共赢。


容器云研发期间,我们也在打造全栈全场景的混合架构,业务可以根据场景需求,在双算力的平台下融合部署,混合调度,实现业务能力互备,资源共享。


硬件层面,在 X86 基础上引入 ARM 算力,并向互联网公司学习,结合云原生改造需求,研发定制了云原生容器服务器。


在操作系统层面,积极拥抱开源社区,中国移动拥有自研的操作系统,也在积极探索 openEuler 开源操作系统部署应用,并尝试多元化容器运行时部署。


中间件层面,我们与东方通、中科院软件所、电子技术标准化研究院、国家信息中心、工商银行等单位一起中标了国家 2020 年基础支撑软件中间件项目,推动定制化中间件的研发和应用。


数据库层面,联合了业内 5 家企业进行联合创新,在应用场景中进行测试验证。通过不断的验证打磨,推动自主可控国产数据库的成熟落地。


请勿“人云亦云”


任何热门技术都逃不过“泡沫”,我们现在已然到了“不懂云原生不好意思出门的”境地,而热浪中总有喜欢看热闹不嫌事儿大的人,搅浑水的人以及淘金者。作为亲身实践者,中国移动又有哪些好的建议呢?


InfoQ:我们可以理解为云原生平台是某种形式的中台吗?


A:云原生平台实现了底层技术能力的复用,加快了应用上线速度,我们都认为是一种形式的技术中台,或者说数字化转型的技术底座。


InfoQ:对于希望做云原生改造的企业而言,您有哪些建议呢?


A:一是对于云原生改造,企业需要有自己的总体规划。系统整体架构未来要如何演进,各业务系统现存哪些问题和痛点,有哪些新的需求;二是云原生改造对人员的要求比较高,要具备架构的自主掌控力;三是云原生改造要循序渐进,平台部门要制定明确的研发、交付、运维规范,指导业务系统有序上云;四是要及时复盘,及时评估上云之后的效果和指标量化价值;五是运维支撑一定要跟上,包括安全体系,要构建完善的运维监控工具,解决好故障定位和监控难的问题;最后,构建一个成熟的系统往往需要一个相对比较长的运维和迭代过程,我们积极拥抱云原生的同时,也要做好踩坑的准备,稳步前行。


嘉宾介绍:


张春 中国移动信息技术中心研发创新中心 副总经理


魏宝辉中国移动信息技术中心研发创新中心架构师


郑文雯中国移动信息技术中心研发创新中心架构师


赵淳中国移动信息技术中心研发创新中心 运营总监


如果你正在传统企业经历了完整的数字化转型过程或者正在互联网公司进行创新技术的研发,并希望 InfoQ 可以关注并采访你所在的技术团队,可以添加记者微信:13051771597,请注明来意及公司名称。


阅读数:2143发布于:2021 年 3 月 15 日 08:00

免费下载此书(PDF)
免费下载此书(ePub)
免费下载此书(MOBI)

评论

发布
暂无评论