写点什么

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

  • 2022-07-21
  • 本文字数:3311 字

    阅读完需:约 11 分钟

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

据 Flexera 的一份调研报告显示,大多数公司每年在云上的花费超过 100 万美元,多达三分之一的云计算资源没有被有效地使用或被浪费。可见,虽然按需弹性是云计算的优势,但如果资源规划、配置以及利用的方式不当,都会造成巨大的资源浪费。


企业到底如何实现“用好云”的目标?又该如何使资源效能发挥出最大的优势,带来成本结构的优化改善?7 月 21 日,百度世界 2022 在线上召开,大会主论坛以“云智一体赋能实体经济发展”为主题,介绍了百度在能源、工业以及智慧城市的深入实践。此外,围绕降本增效、云智一体等话题,百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中,又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验,InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。


从企业 IT 资源优化的关键路径说起


作为数字经济的强大底座,云计算不仅要保持高稳定、高性能,还要具备高性价比的特性。目前,我们看到云服务已经基本能够满足上述提到的因素,但与此同时,无论是互联网企业还是传统企业,大家依然有持续降本增效的需求。因此,当企业走过了“上云”和“用云”的初期阶段,“用好云”则成为了更进阶的问题。


企业“用好云”的关键路径究竟是什么?侯震宇在采访中提到:“企业要想真正用好云,需要重新思考业务战略目标、技术理念以及组织能力三方面因素,从而实现真正意义上的云原生。”


企业需要围绕业务战略明确“上云”“用云”的目标,判断如何选择更加高效的基础服务。通常来说,想清楚这一步是企业实现持续用好云的关键。其次,为了满足业务创新和持续发展的要求,企业还需要将 IT 技术架构进行改造和升级,具体可以分为以下三个方面:


第一,选择“用好云”的基础架构。企业需要意识到,云服务的核心优势不仅仅停留在虚拟化和弹性,其还具备多形态的算力、产品以及增值等能力。例如,如果常规业务能够接受多样的算力形态,使用弹性、竞价抢占、潮汐算力等特性,相比常驻资源,成本预计会降低 2/3 以上;而对于在容器 K8s 上的业务,如果开启混部等能力,CPU 资源利用率可以提升到 45% ,甚至更高;


第二,设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时,让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性,从而把“上云”“用云”的价值发挥到最大;


第三,面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起,建立专门的资源运营团队负责把控和规划,建立专业的服务体系连接云和各个业务方,最终让公司和每个业务都取得目标收益。


当然,企业在上云的过程中势必会带来短期的额外成本,如人力投入、资金投入等等,但从长远的角度来看,上云也将带来研发效能和资源效能的最大化,企业需要用长期主义的思维进行决策,坚定上云的选择。

“一明一暗”两条线,百度的资源治理实践


一直以来,百度自身就是云原生技术的实践者。侯震宇在采访时透露,约在五年前,百度就开始建设面向未来的基础架构,推进业务容器上云。在整个实践的过程中,资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下,百度也启动了为期 3 年的云上战略,总结来说就是“一明一暗”两条线。


在明线上,开展产品 & 硬件云网融合,产品技术统一规划,全面覆盖研发环境、应用架构和基础设施:首先,通过百度智能云,在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行 DPU、高性能存储、网络等全栈云原生基础设施的加持下,实现了客户和百度集团业务的计算、存储等资源共池,资源灵活周转、调度和高效交付;面对超万台节点规模的大型业务单元需求,实现一周内全面交付。


其次,结合超大规模云原生混部调度、容量预测和智能弹性技术,在保障资源质量和安全隔离的基础上,让整体资源利用效率提升 45%+,单位 IT 成本下降超过三分之一,利用独特的潮汐算力技术,实现内外分时复用,让极致的绿色算力全面落地;


最后,打造了一站式云原生平台,结合云原生数据库、云原生实时数仓等技术,构建了全链条云原生生态。目前,百度超过 95% 的业务应用已经全面云原生化,所有核心业务都具备高弹性高可用和敏捷迭代的能力。


在暗线上,百度启动了大资源运营体系建设,围绕 IT 资源的生命周期,针对资源效能目标进行拆解、量化、分析,对集团经营管理侧、业务用云侧进行牵引指导,开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设,并分别从容量、质量、交付、成本多个维度进行度量评价,不仅推动了经营理念从 TCO 到 TVO 的变革,还实现了供给端 & 消费端理念和机制的转变。最终,变革后的预算管理机制,让内部各个业务线对资源的看待视角发生了转变,基础设施资源和云化资源管理拉通以后,每年还能持续为百度贡献约 10 亿元的成本优化。


不难发现,百度资源治理的实践其实与 FinOps 理念是不谋而合的,不仅帮助企业通过财务的视角,思考、规划应该如何使用这朵云,也让企业在享受云原生化技术红利的同时,又实现了 IT 资源降本增效的目标。

全栈基础设施云原生化,提供强大的后坐力


目前,百度已经将内部孵化出的技术能力挪到了云上,以期为更多用户提供强大的基础设施。要知道,百度的业务是非常复杂的,各种类型的应用,各种各样的数据,都依赖于百度强大的基础架构。说到这里,如果你依旧不能清晰地感知到百度业务的复杂性,或许可以通过这组数据进行参考:百度总容量已经达到数十 EB,每天新增的数据量就有数十 P,每天处理的数据超过百 P,峰值处理每秒达 10TB。


而百度智能云之所以具备稳定、高性能等特性,自然也离不开底层技术的支持。一直以来,百度智能云都在关注整个技术发展领域,在 AI 成为技术潮流的背景下,百度智能云实现了全栈自研,建设了最适合跑 AI 的基础设施。


随着数字经济时代全面开启,数据中心的建设规模不断扩大,数据中心的绿色低碳发展也成为各方关注的焦点。基于此,百度在低碳计算方面也投入了很大精力,自建 PUE 领先的数据中心,使用“市电 +HVDC Offline”供电方案,应用“冰川”相变冷却技术,采用基于百度“飞桨”智能控制系统实时监测数据并调优,能效最高单体数据中心年均 PUE 低至 1.08。


此外,为了打造出最适合跑 AI 的基础设施,百度还需要在整个计算体系层面上提高效率,正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样:“面对不断演进的数字化需求,英特尔将继续深化与包括百度在内的生态伙伴的合作,以“绿色、低碳”为出发点,将更多优秀的技术和解决方案推向市场,为个人、产业和社会创造更多的便利和价值。”



为此,百度不仅和 Intel 联合打造了百度定制的 Intel CPU,还自研了多类芯片、设计了为 AI 场景优化的服务器,如百度自研的昆仑芯片、太行 DPU 以及超级 AI 计算机 X-MAN 等。与此同时,随着现在 CPU 的处理能力越来越强,各个计算节点之间的数据交换也会变得更加密集,需要有非常好的低延时网络服务来支撑,所以,在软件层面上,百度智能云定义了自己的网络协议栈,建设了超低时延网络。

“从最底层的低碳绿色数据中心,到我们自研的芯片,再到多芯片的适配,最后到上层集群和软件,我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。

作为最适合跑 AI 的基础设施,百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力,全面使用这些能力,会让 GPU 利用率达到 80% 甚至更高,作业效率更能够有 3-5 倍的提升。

写在最后


“云服务,原来只是一个简单、算得过账的工具,如今已经演变成一个能给企业提供生命力的新系统,甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。


可以预见的是,在 AI 技术的强烈冲击下,传统的通用型算力架构已经被时代所抛弃,企业更需要的是面向智能的计算能力,以提供更高效、稳定、高性价比的计算平台。目前,百度智能云已经将 AI 的能力以及软件层面的能力,真正地注入到了云底座,基于百度智能云提供的“云智一体”服务,可以帮助企业在节省芯片、算法等硬性投入的同时,降低对专业人才的依赖。


回归到开篇的提问:企业到底如何才能实现“用好云”的目标,相信可以在百度智能云中找到捷径和答案。


2022-07-21 18:006783

评论

发布
暂无评论
发现更多内容

2021!阿里技术官最新发布Java零基础就业宝典,不用再怀疑人生了

Java 程序员 后端

43 道检验基础的 JavaScript 面试题,一招教你看懂Netty

Java 程序员 后端

5年开发经验,面试10分钟后,面试者,转疯了

Java 程序员 后端

Anaconda安装,linux操作系统学习

Java 程序员 后端

Alibaba船新出品“Java架构核心宝典”,java教程视频百度网盘

Java 程序员 后端

20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!(1)

Java 程序员 后端

30天消化MyBatis源码解析笔记,吊打面试官,offer接到手软

Java 程序员 后端

6年开发,五面阿里,耗时3月系统梳理Java全栈知识点,劲爆

Java 程序员 后端

97 道大厂 Java 核心面试题出炉,来试试看你会几道题?

Java 程序员 后端

AlibabaP8架构师整理,283页的Java核心资料pdf文档,学会后月薪4W没问题

Java 程序员 后端

2021金三银四程序员必备:“基础-中级-高级,几种线程安全的Map解析

Java 程序员 后端

208道Java高频面试题,让你面试之路畅通无阻!,med教程入门教程

Java 程序员 后端

9000字通俗易懂的讲解下Java注解,你还看不明白?,linux操作系统基础与应用答案

Java 程序员 后端

32 岁的我裸辞了,八年 Java 老鸟,只因薪水被应届生倒挂

Java 程序员 后端

5份Java高级工程师Offer=1套pdf+10本书+414道大厂Java面试真题(1)

Java 程序员 后端

99%的面试会问到的Redis面试题Redis面试必磕,mybatis面试题2020

Java 程序员 后端

5分钟掌握JVM常用选项及相关知识,工作面试够用了,dubbo和zkeper的面试题

Java 程序员 后端

@RequestMapping属性详解 - SpringMVC高手进阶,2021金九银十

Java 程序员 后端

ACID 过时?用 Sagas 搞定数据一致性,面试字节跳动的Java工程师该怎么准备

Java 程序员 后端

2021终于拿到阿里Java后端岗offer!只因我做了这个决定

Java 程序员 后端

2021首次分享面试阿里P6心得:1000字超全面试题答案解析

Java 程序员 后端

21 利用分布式消息队列降低系统耦合性,java后端项目实战

Java 程序员 后端

4年Java程序员十面阿里终拿下offer,评级P6+年薪30-40w无股票

Java 程序员 后端

GitHub标星139K的:“Linux系统开发教程”

收到请回复

Linux 架构 后端 计算机

20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!

Java 程序员 后端

47天洒热血复习,我成功“挤进,java多线程面试算法

Java 程序员 后端

5份Java高级工程师Offer=1套pdf+10本书+414道大厂Java面试真题

Java 程序员 后端

77道Spring面试题以及参考答案(2021年最新版),java面试题加答案

Java 程序员 后端

太难为我了,三战阿里,拿下27K*16offer(附七面面经)

Java 程序员 架构 面试 后端

23种设计模式与六大原则看了又忘,忘了又看?是你看的方法不对

Java 程序员 后端

Apache Log4j2详解,【高级Java架构师系统学习

Java 程序员 后端

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?_云原生_郑思宇_InfoQ精选文章