OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

  • 2022-07-21
  • 本文字数:3311 字

    阅读完需:约 11 分钟

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?

据 Flexera 的一份调研报告显示,大多数公司每年在云上的花费超过 100 万美元,多达三分之一的云计算资源没有被有效地使用或被浪费。可见,虽然按需弹性是云计算的优势,但如果资源规划、配置以及利用的方式不当,都会造成巨大的资源浪费。


企业到底如何实现“用好云”的目标?又该如何使资源效能发挥出最大的优势,带来成本结构的优化改善?7 月 21 日,百度世界 2022 在线上召开,大会主论坛以“云智一体赋能实体经济发展”为主题,介绍了百度在能源、工业以及智慧城市的深入实践。此外,围绕降本增效、云智一体等话题,百度副总裁侯震宇等嘉宾在百度世界的子栏目《AI 可见度》中,又进行了深入地解读。为了挖掘企业“用好云”的关键路径以及百度集团上云的实战经验,InfoQ 也有幸对百度集团副总裁侯震宇进行了一次独家专访。


从企业 IT 资源优化的关键路径说起


作为数字经济的强大底座,云计算不仅要保持高稳定、高性能,还要具备高性价比的特性。目前,我们看到云服务已经基本能够满足上述提到的因素,但与此同时,无论是互联网企业还是传统企业,大家依然有持续降本增效的需求。因此,当企业走过了“上云”和“用云”的初期阶段,“用好云”则成为了更进阶的问题。


企业“用好云”的关键路径究竟是什么?侯震宇在采访中提到:“企业要想真正用好云,需要重新思考业务战略目标、技术理念以及组织能力三方面因素,从而实现真正意义上的云原生。”


企业需要围绕业务战略明确“上云”“用云”的目标,判断如何选择更加高效的基础服务。通常来说,想清楚这一步是企业实现持续用好云的关键。其次,为了满足业务创新和持续发展的要求,企业还需要将 IT 技术架构进行改造和升级,具体可以分为以下三个方面:


第一,选择“用好云”的基础架构。企业需要意识到,云服务的核心优势不仅仅停留在虚拟化和弹性,其还具备多形态的算力、产品以及增值等能力。例如,如果常规业务能够接受多样的算力形态,使用弹性、竞价抢占、潮汐算力等特性,相比常驻资源,成本预计会降低 2/3 以上;而对于在容器 K8s 上的业务,如果开启混部等能力,CPU 资源利用率可以提升到 45% ,甚至更高;


第二,设计面向云的业务架构。这就要求企业的 IT 团队在设计业务架构时,让业务架构具备服务化、弹性伸缩、可迁移性、可观测性以及韧性等云原生架构特性,从而把“上云”“用云”的价值发挥到最大;


第三,面向云的组织建设也同样重要。企业需要把云、基础架构、业务架构、运维等团队有机地结合在一起,建立专门的资源运营团队负责把控和规划,建立专业的服务体系连接云和各个业务方,最终让公司和每个业务都取得目标收益。


当然,企业在上云的过程中势必会带来短期的额外成本,如人力投入、资金投入等等,但从长远的角度来看,上云也将带来研发效能和资源效能的最大化,企业需要用长期主义的思维进行决策,坚定上云的选择。

“一明一暗”两条线,百度的资源治理实践


一直以来,百度自身就是云原生技术的实践者。侯震宇在采访时透露,约在五年前,百度就开始建设面向未来的基础架构,推进业务容器上云。在整个实践的过程中,资源治理也成为了百度要解决的一个首要问题。在降本增效目标的驱动下,百度也启动了为期 3 年的云上战略,总结来说就是“一明一暗”两条线。


在明线上,开展产品 & 硬件云网融合,产品技术统一规划,全面覆盖研发环境、应用架构和基础设施:首先,通过百度智能云,在绿色低碳 IDC、AI 服务器、昆仑 XPU、太行 DPU、高性能存储、网络等全栈云原生基础设施的加持下,实现了客户和百度集团业务的计算、存储等资源共池,资源灵活周转、调度和高效交付;面对超万台节点规模的大型业务单元需求,实现一周内全面交付。


其次,结合超大规模云原生混部调度、容量预测和智能弹性技术,在保障资源质量和安全隔离的基础上,让整体资源利用效率提升 45%+,单位 IT 成本下降超过三分之一,利用独特的潮汐算力技术,实现内外分时复用,让极致的绿色算力全面落地;


最后,打造了一站式云原生平台,结合云原生数据库、云原生实时数仓等技术,构建了全链条云原生生态。目前,百度超过 95% 的业务应用已经全面云原生化,所有核心业务都具备高弹性高可用和敏捷迭代的能力。


在暗线上,百度启动了大资源运营体系建设,围绕 IT 资源的生命周期,针对资源效能目标进行拆解、量化、分析,对集团经营管理侧、业务用云侧进行牵引指导,开展了诸如零基预算、需求报备、定价结算、韧性供应链等体系化产品建设,并分别从容量、质量、交付、成本多个维度进行度量评价,不仅推动了经营理念从 TCO 到 TVO 的变革,还实现了供给端 & 消费端理念和机制的转变。最终,变革后的预算管理机制,让内部各个业务线对资源的看待视角发生了转变,基础设施资源和云化资源管理拉通以后,每年还能持续为百度贡献约 10 亿元的成本优化。


不难发现,百度资源治理的实践其实与 FinOps 理念是不谋而合的,不仅帮助企业通过财务的视角,思考、规划应该如何使用这朵云,也让企业在享受云原生化技术红利的同时,又实现了 IT 资源降本增效的目标。

全栈基础设施云原生化,提供强大的后坐力


目前,百度已经将内部孵化出的技术能力挪到了云上,以期为更多用户提供强大的基础设施。要知道,百度的业务是非常复杂的,各种类型的应用,各种各样的数据,都依赖于百度强大的基础架构。说到这里,如果你依旧不能清晰地感知到百度业务的复杂性,或许可以通过这组数据进行参考:百度总容量已经达到数十 EB,每天新增的数据量就有数十 P,每天处理的数据超过百 P,峰值处理每秒达 10TB。


而百度智能云之所以具备稳定、高性能等特性,自然也离不开底层技术的支持。一直以来,百度智能云都在关注整个技术发展领域,在 AI 成为技术潮流的背景下,百度智能云实现了全栈自研,建设了最适合跑 AI 的基础设施。


随着数字经济时代全面开启,数据中心的建设规模不断扩大,数据中心的绿色低碳发展也成为各方关注的焦点。基于此,百度在低碳计算方面也投入了很大精力,自建 PUE 领先的数据中心,使用“市电 +HVDC Offline”供电方案,应用“冰川”相变冷却技术,采用基于百度“飞桨”智能控制系统实时监测数据并调优,能效最高单体数据中心年均 PUE 低至 1.08。


此外,为了打造出最适合跑 AI 的基础设施,百度还需要在整个计算体系层面上提高效率,正如 Intel 中国区物联网事业部首席技术官张宇在《AI 可见度》分论坛提到的那样:“面对不断演进的数字化需求,英特尔将继续深化与包括百度在内的生态伙伴的合作,以“绿色、低碳”为出发点,将更多优秀的技术和解决方案推向市场,为个人、产业和社会创造更多的便利和价值。”



为此,百度不仅和 Intel 联合打造了百度定制的 Intel CPU,还自研了多类芯片、设计了为 AI 场景优化的服务器,如百度自研的昆仑芯片、太行 DPU 以及超级 AI 计算机 X-MAN 等。与此同时,随着现在 CPU 的处理能力越来越强,各个计算节点之间的数据交换也会变得更加密集,需要有非常好的低延时网络服务来支撑,所以,在软件层面上,百度智能云定义了自己的网络协议栈,建设了超低时延网络。

“从最底层的低碳绿色数据中心,到我们自研的芯片,再到多芯片的适配,最后到上层集群和软件,我们希望能够打造出全国面向 AI 环境最领先的 AI 超算集群。”侯震宇在《AI 可见度》分论坛中总结道。

作为最适合跑 AI 的基础设施,百度智能云提供了丰富的 GPU 容器虚拟化、推理 / 训练加速、数据 / 镜像加速等能力,全面使用这些能力,会让 GPU 利用率达到 80% 甚至更高,作业效率更能够有 3-5 倍的提升。

写在最后


“云服务,原来只是一个简单、算得过账的工具,如今已经演变成一个能给企业提供生命力的新系统,甚至能够成为企业可持续发展的重要组成部分。”侯震宇说道。


可以预见的是,在 AI 技术的强烈冲击下,传统的通用型算力架构已经被时代所抛弃,企业更需要的是面向智能的计算能力,以提供更高效、稳定、高性价比的计算平台。目前,百度智能云已经将 AI 的能力以及软件层面的能力,真正地注入到了云底座,基于百度智能云提供的“云智一体”服务,可以帮助企业在节省芯片、算法等硬性投入的同时,降低对专业人才的依赖。


回归到开篇的提问:企业到底如何才能实现“用好云”的目标,相信可以在百度智能云中找到捷径和答案。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-07-21 18:005986

评论

发布
暂无评论
发现更多内容

Android NDK 开发之 CMake 必知必会,后台开发Android岗

android 程序员 移动开发

Flutter性能监控实践

贝壳大前端技术团队

flutter 性能 监控 优化

Android Binder 的主要内容概述以及特性和原理,Android开发前景怎么样

android 程序员 移动开发

Android Framework学习笔记(七)AMS全家桶,剖析Android开发未来的出路在哪里

android 程序员 移动开发

android hxgsecurity 常用的集中加密方式封装,android项目开发案例

android 程序员 移动开发

Android Jsoup:实现HTML解析和Epub解析,论程序员成长的正确姿势

android 程序员 移动开发

Android MTK 设置默认启动 Launcher,android实战pdf

android 程序员 移动开发

Android App关于应用程序升级的一点内容,app软件开发课程

android 程序员 移动开发

软件测试常用工具总结(测试管理、单元测试、接口测试、自动化测试、性能测试、负载测试...)

六十七点五

程序员 软件测试 自动化测试 接口测试 测试工程师

墨刀发布企业版v3.5 ! 再度赋能“团队协同”新模式

Android NDK之旅——图片高斯模糊,30岁以后搞Android已经没有前途

android 程序员 移动开发

android activity Intent 传值 传对象(1),头条三面技术四面HR

android 程序员 移动开发

Android Activity 启动出现白屏带标题或闪屏问题解决,移动开发者社区

android 程序员 移动开发

怎么用EasyRecovery恢复sd卡中的数据

淋雨

EasyRecovery

会声会影VS剪映?免费虽好,但花钱的快乐你想象不到!

懒得勤快

Android OKHttp 可能你从来没用过的拦截器 【实用推荐】

android 程序员 移动开发

Android PinnedHeaderListView 详解,flutter技术解析与实战

android 程序员 移动开发

android activity Intent 传值 传对象,android开发框架开源登录界面

android 程序员 移动开发

Android APK反编译就这么简单 详解(附图),字节跳动大神讲座

android 程序员 移动开发

Android App Bundle探索,android系统软件开发

android 程序员 移动开发

Android Launcher——ui框架,嵌入式音视频方向

android 程序员 移动开发

Android Material Design尝鲜,阿里P8面试官都说太详细了

android 程序员 移动开发

华为云GaussDB持续深耕创新与开放,打造企业核心数据上云信赖之选

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库 GaussDB(for MySQL) UGO

Android Dialog 的一些使用和优化心得(DialogFragment的使用和优化)

android 程序员 移动开发

Android R 新特性变化,三级缓存框架问题你都了解了吗

android 程序员 移动开发

Android OOM:内存管理分析和内存泄露原因总结,网易架构师深入讲解Android开发

android 程序员 移动开发

Android Glide 3,flutter小程序

android 程序员 移动开发

android LifeCycle-简单使用和详细原理解析,2021大厂Android面试经历

android 程序员 移动开发

耗时两个月,我终于把牛客网最火的Java面试题整理成册了,在Github标星60K

Sakura

Java 程序员 架构 面试 后端

Android 8 通知渠道(Notification Channels),美团移动端开发工程师

android 程序员 移动开发

android Jetpack Navigation组件——堆栈操作和动画效果

android 程序员 移动开发

专访百度副总裁侯震宇:企业如何解决“用好云”的进阶问题?_云原生_郑思宇_InfoQ精选文章