Big Sur:Facebook 的开源机器学习硬件

  • 张天雷

2015 年 12 月 20 日

话题:Facebook语言 & 开发架构

作为人工智能(Artificial Interlligence,AI)领域,尤其是机器学习方向的领头企业,Facebook 在机器学习算法方面进行了很多研究,公布并开源了很多相关的成果。近日,Facebook 又公布了其下一代的“Big Sur”人工智能硬件框架的信息,并表示将开源其设计细节。

近些年,人工智能和机器学习方向取得了长足的发展。据Kevin Lee 透露,Facebook 的 AI 软件已经能够阅读故事、回答相关场景的问题玩游戏以及通过一些例子来学习非指定的内容。作为计算密集型的应用,AI 软件的性能与数据集规模 / 硬件性能密切相关。尤其是硬件方面,高性能微处理器、存储器以及图形处理器(Graphics Processing Unit,GPU)的发展为 AI 算法的快速运行提供了坚实基础。为了进一步更好地服务大规模 AI 计算,Facebook 推出了基于 GPU 的、用于训练神经网络的“Big Sur”硬件系统。

如上图所示,该硬件系统提供了 8 个 PCI-e 插槽,最多可支持 8 个高性能 GPU,其中每个 GPU 的最高功耗可达 300W。而且,系统可以根据需要对 GPU 的拓扑进行灵活配置。Kevin 表示,配备NVIDIA Tesla M40加速计算平台的 Big Sur 系统性能,比上一代系统要提高一倍——训练速度是原来的两倍,探索网络的规模也可达到原来的两倍。而且,Big Sur 系统具有更高的灵活性和功耗 / 制冷效率。Facebook 特别针对功耗和散热进行了优化,使得系统仍然可以使用风扇进行散热。

此外,系统进一步优化了系统维护相关的资源。Big Sur 已经移除了一些很少使用的组件,并提升了替换硬盘和内存等易损组件的便捷性,使得替换这些组件只需要几秒钟时间即可。而且,原来需要耗费一个小时的移除主板的工作也可在一分钟内完成。除了处理器的散热片以外,该系统基本可以做到免工具安装和移除。在触点的颜色方面,Big Sur 系统选用了 Facebook 一贯使用的 Pantone 375 C 的绿色,方便工程师设别、访问和移除组件。

Kevin 表示,Facebook 将会延续之前的做法开源 Big Sur 系统的设计,并将设计材料提交到开源计算项目。据预测,此项工作的对外发布可能会在明年的 OCP 峰会上进行。Facebook 希望通过这种做法,既为社区做出贡献,又能够与社区合作改进该系统。此外,Facebook 的 AI 研究团队的Yann LeCun 表示,如果更多的企业采用 Big sur 的设计,该系统的价格也可以随着供货量提升而大幅度下降,从而减少企业的硬件成本。


感谢董志南对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

Facebook语言 & 开发架构