【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

谷歌首创基于云的 AI 自治系统,为数据中心自动降温

  • 2018-09-06
  • 本文字数:1813 字

    阅读完需:约 6 分钟

2016 年,DeepMind 联合开发了一个人工智能驱动的推荐系统,用以提高谷歌数据中心的能源效率。现在,他们将这个系统提升到一个新的水平:在数据中心运营专家的监督之下直接让 AI 系统控制数据中心的冷却系统。这种首创的基于云的控制系统现在可以安全地为多个谷歌数据中心提供节能服务。

现实世界的很多最紧迫的问题变得越来越复杂,为它们寻求解决方案可能会让人不堪重负。在 DeepMind 和谷歌,谷歌认为,如果其能够将 AI 作为发现新知识的工具,那么就可以更容易得找到解决方案。

2016 年,谷歌联合开发了一个人工智能驱动的推荐系统,用以提高谷歌数据中心的能源效率。谷歌的想法很简单:即使是微小的改进也可以显著地节约能源,减少二氧化碳排放,从而有助于应对气候变化。

现在谷歌将这个系统提升到一个新的水平:谷歌不是通过人为的方式实现推荐系统,而是在数据中心运营专家的监督之下让谷歌的 AI 系统直接控制数据中心的冷却系统。这种首创的基于云的控制系统现在可以安全地为多个谷歌数据中心提供节能服务。

它是怎么运作的

每隔五分钟,谷歌的 AI 系统就会从数千个传感器收集数据中心冷却系统的快照,并将其输入到谷歌的深度神经网络中,用以预测不同的潜在操作的组合将如何影响未来的能源消耗。然后,AI 系统将识别出哪些操作将会最小化能量消耗,同时又能满足安全约束。这些操作被发送回数据中心,数据中心的本地控制系统负责验证和执行它们。

这个想法源于使用 AI 推荐系统的数据中心专家的反馈。他们告诉谷歌,虽然推荐系统已经为他们提供了一些新的最佳实践——例如将冷却负载分散到更多而不是更少的设备上——但实现推荐仍然需要很多的运营工作量和监督。当然,他们想知道谷歌是否可能实现在没有人工干预的情况下实现类似的节能。

谷歌很高兴地说,答案是肯定的!

专为安全和可靠性而设计

谷歌的数据中心包含数千台服务器,用于支持谷歌搜索、Gmail 和 YouTube 等热门服务。确保它们可靠高效地运行是谷歌的关键任务。谷歌从头开始设计谷歌的 AI 代理和底层控制基础设施,并时刻考虑到安全性和可靠性问题,还使用了八种不同的机制来确保系统始终按预期运行。

谷歌已经实现的一个简单方法是预估不确定性。对于每一个潜在的操作——可能有数十亿个——谷歌的 AI 代理会计算出它们的信心指数。低信心指数的操作将不予考虑。

另一种方法是进行双层验证。谷歌将根据由数据中心运维人员定义的内部安全约束列表对 AI 计算得出的最佳操作进行审查。在指令从云端发送到物理数据中心后,本地控制系统就根据自己的约束集对指令进行验证。这种冗余检查可以确保系统保持在局部约束范围内,并且运维人员可以完全控制操作边界。

最重要的是,谷歌的数据中心运维人员始终控制着局面,可以随时选择退出 AI 控制模式。在这些情况下,控制系统将无缝地从 AI 控制转移到现场规则。

可以从下图了解谷歌开发的其他安全机制:

逐渐增长的节能

谷歌的原始推荐系统有运维人员进行审查和实现操作,而谷歌新的 AI 控制系统却直接自己实现了操作。考虑到安全性和可靠性问题,谷歌有目的地将系统的优化边界限制在较窄的操作体系中,这意味着在节能方面存在风险和回报之间的折衷。

尽管只有几个月的时间,这个系统已经实现了平均约 30%的持续节能,并有了进一步的预期改进。这是因为随着时间的推移,系统会因为数据越来越多而变得更好,如下图所示。随着技术的成熟,谷歌的优化边界也将得到扩展,从而实现更高效的节能。

这张图描绘了相对于历史基线的 AI 性能趋势。性能通过通用的工业冷却能效指标(kW/ton,每吨冷却对应的能量输入)来衡量。在 9 个月时间里,谷歌的 AI 控制系统性能从 12%的改进增加到大约 30%的改进。

谷歌的 AI 控制系统正在寻找更多新颖的管理冷却的方式,这些方法甚至让数据中心运维人员感到惊讶。谷歌数据中心运维人员 Dan Fuenffinger 说:“看到 AI 学会利用冬季条件并生成比普通水更冷的水,着实令人感到惊讶,这样可以降低冷却所需的能量。随着时间的推移,人工规则不会变得更好,但 AI 却可以“。

谷歌很高兴谷歌的 AI 控制系统能够安全可靠地运行,同时始终如一地实现节能。但是,数据中心只是个开始。从长远来看,谷歌认为有可能将这项技术应用到其他工业环境,并在更大规模的范围内应对气候变化。

查看英文原文: https://de ep mind.com/blog/safety-first-ai-autonomous-data-centre-cooling-and-industrial-control/

感谢陈利鑫对本文的审校。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-09-06 19:001380
用户头像

发布了 731 篇内容, 共 432.2 次阅读, 收获喜欢 1997 次。

关注

评论

发布
暂无评论
发现更多内容

学术贴 | FPGA 加速图数据库查询执行

KaiwuDB

数据库

江苏省16家正规等保测评机构名单看这里!

行云管家

等保 等级保护 等级保护机构 江苏

大曝光!从RabbitMQ平滑迁移至Kafka架构设计方案!

艾小仙

kafka 架构 RocketMQ RabbitMQ

还在头疼每月房贷还款,这个房贷计算机让你一目了然

华为云开发者联盟

人工智能 华为云 企业号 2 月 PK 榜 华为云开发者联盟

软件测试 | 接口测试用例设计

测吧(北京)科技有限公司

测试

软件测试 | josn和XML请求

测吧(北京)科技有限公司

测试

多个云服务器管理小技巧-行云管家

行云管家

云计算 云服务器 云管理

自动化运维和普通运维有什么区别?

嘉为蓝鲸

自动化运维 嘉为蓝鲸

软件测试 | XML响应断言

测吧(北京)科技有限公司

测试

2023AIOTE智博会 第十五届上海国际智慧城市、物联网、大数据博览会

InfoQ_caf7dbb9aa8a

AI for Science系列(二):基于AI框架的CFD工具组件!赛桨v1.0 Beta API介绍以及典型案例分享!

飞桨PaddlePaddle

深度学习 paddle API 飞桨

活动预告 | GAIDC 全球人工智能开发者先锋大会

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

【实操演示】使用NineData修改来管理ClickHouse的数据库表结构。

NineData

数据库 开发者 Clickhouse 表结构 NineData

AI2023第十五届上海国际人工智能展览会

InfoQ_caf7dbb9aa8a

AI for Science系列(一) :飞桨加速CFD(计算流体力学)原理与实践

飞桨PaddlePaddle

paddle 算法 飞桨 框架技术

如何使用DevEco Studio创建Native C++应用

OpenHarmony开发者

OpenHarmony

购买LED液晶拼接屏的十大原则

Dylan

显示器 LED显示屏 led显示屏厂家

可观测落地实践——从战略管理到工具落地

嘉为蓝鲸

可观测 自动化运维 嘉为蓝鲸

部署 OpenLDAP 对接到 DataEase实现统一用户管理

搞大屏的小北

ldap openldap 统一管理 DataEase

调查报告解读之国外数据库篇:MySQL国内使用率第一,多少企业有意替换国外产品?

墨天轮

MySQL 数据库 oracle redis 国产数据库

缺少IT人员的服装行业该如何进行数字化转型?

优秀

数字化转型

拒绝“ 背锅”!数据治理从策略到落地,发挥CMDB价值!

嘉为蓝鲸

CMDB 自动化运维 嘉为蓝鲸

软件测试 | 接口请求构造

测吧(北京)科技有限公司

测试

案例介绍:使用A-Ops性能热点火焰图进行性能诊断

openEuler

Linux 操作系统 openEuler 性能测评 A-Ops

WorkPlus“Meet”,让企业高效协作的视频会议系统

WorkPlus

软件测试 | 接口测试框架

测吧(北京)科技有限公司

测试

OceanBase CTO杨传辉:放手去干,这行没有35岁危机

OceanBase 数据库

数据库 oceanbase

活动回顾丨研发效能度量线下沙龙圆满举办

Kyligence

数据分析 Kyligence Zen

你什么档次?敢和我用一样的即时通讯平台WorkPlus?

WorkPlus

交通银行签约易观千帆,全面升级数智能力

易观分析

金融 银行 经济

软件测试 | 接口测试断言

测吧(北京)科技有限公司

测试

谷歌首创基于云的AI自治系统,为数据中心自动降温_AI&大模型_DeepMind_InfoQ精选文章