写点什么

2016 机器学习大盘点(第 3 篇)

2017 年 2 月 05 日

本篇是 2016 年度机器学习和深度学习系列文章的第三篇。第一篇中,我们介绍了这一领域的重要趋势,例如有关偏见的担忧,互操作性,深度学习技术的爆发性增长,更加平易近人的超级计算,以及机器学习云平台的涌现。在第二篇中,我们介绍了开源机器学习项目,例如 R、Python、Spark、Flink、H2O、TensorFlow 等的进展。

本文将介绍大型科技公司在机器学习和深度学习领域的举措,这些行业领军公司在软件开发和市场营销方面往往有更充沛的预算。本文要介绍的大型公司包括:

  • SAS,分析预测技术领域软件收入最高的企业,具备一种独一无二,自成一派的业务模式。
  • 诸如IBM微软OracleSAP以及Teradata等公司,在数据仓库市场上占据优势地位,除 Teradata 之外其他几家公司均提供了获得广泛应用的商业智能软件。这些公司具备为现有客户群开发、营销,以及交叉销售各类机器学习软件所需的财务优势,只要愿意,就能在市场中产生极大的反响。
  • 戴尔HPE作为高级分析市场的新手,已在 2016 年黯然退场。

第一篇曾介绍过谷歌Amazon Web Services。虽然这两家公司目前在业务分析领域尚无太大建树,但正在向着这个方向发力。为了涉足这个市场,谷歌今年已经设立了 Google Cloud Machine Learning 这一独立产品组,亚马逊也已提供了一个名为 QuickSight 的业务分析服务。

熟悉我的读者都知道,我更喜欢开源软件,大部分数据科学家也是如此。在本篇将要介绍的诸多公司中,IBM 和微软已经对开源模式做出了大量承诺,包括直接向开源软件项目提交贡献。这样的举措值得鼓励。Teradata 开始对 Presto SQL 进行投入,这一行为值得为之鼓掌。Oracle 和 SAP 在自己的解决方案中使用了开源软件,但并未作出太大贡献。SAS 拥抱开源的姿态总给人造成一种“视死如归”的感觉。

在第四篇文章中,我将介绍几个机器学习领域的初创公司,并公布之前年度调查的结果。

SAS

根据 IDC 调查,在高级和预测式分析软件市场中,SAS 的软件许可收入居于首位。该公司有一大批统计学、精算师、生命科学家,以及其他在工作中需要严重依赖统计分析结果的用户。

通过与 IBM 合作,SAS 依托为 IBM System/360 大型机开发软件的优势,在二十世纪七十年代正式开门营业。为了吸引用户使用自己的硬件,IBM 当时曾向自己的企业客户推荐 SAS 的软件。目前 SAS 依然在为大型机开发软件,大部分收入依然来自大型机用户。IBM 的一些大型机客户甚至专门为了运行 SAS 的软件而继续使用大型机。

二十世纪九十年代,SAS 成功地转型为多架构软件供应商,开始针对大量其他硬件平台和操作系统移植自己的软件。这期间 SAS 通过行业优势和企业级软件树立了自己的声誉,采取了与 SPSS 这种专注于为桌面开发更易用软件的厂商截然不同的做法。

乍看起来,SAS 正在极力从基于服务器的计算软件供应商向着最新的分布式架构和云计算时代转型。过去十年来,为改善自家产品的性能和缩放性,该公司公布了多项举措,但结果有好有坏。4 月,SAS公布了 Viya,这是该公司第三次企图为分布式 MPP 架构提供高级分析软件。

SAS Viya 是什么?与 SAS 以往提供的高性能软件有何不同?宣传册里有介绍:

云就绪,弹性,可缩放

SAS Viya 的开发充分考虑到私有和公有云环境的弹性和可缩放性。内存中分析运算已针对更自由的环境进行优化,但也可通过调整融入受到各种限制的环境中。弹性处理能力可自动适应不同需求和可用资源的数量,并可按需对计算容量进行扩大或缩小。弹性缩放能力使得用户能够快速针对不同使用场景进行实验,并对更大数量的流数据应用更复杂的方法。

嗯,任何软件都是“云就绪”的,就好像无论在本地或云中运行,Linux 实例始终就 Linux 实例。当然在将任何软件部署到虚拟装置,例如 Amazon Machine Image 中之后,任何软件都将具备弹性,SAS 9.4 也不例外。虽然 SAS 在 2014 年将其称之为“云就绪”,但就算更老版本的 SAS 也可以部署在 AWS 中,尽管 SAS 并不为其提供官方支持。

然而如果你想构建这样的软件实例,还必须具备软件许可。对于 Python、R 或 Spark 这样的开源软件来说,许可完全不是一个问题,想搭建几个实例都行,完全不需要担心是否会违反许可协议。商业化软件就复杂多了,必须为想要运行的实例支付许可费用。一些供应商,例如 HPE 和 Teradata 曾经尝试通过自己的云平台与 Amazon Web Services 进行竞争,并最终悲惨地失败了。其他一些厂商,例如 Oracle 则选择与 AWS 合作在云平台提供自己的软件,例如使用捆绑的托管式服务,或选择“自带许可(Bring Your Own License,BYOL)”模式。

换句话说,如果没有灵活的许可模式,就无法用商业化软件获得弹性计算能力。但灵活的许可模式会对 SAS 这样的供应商造成一个问题:如果客户只为自己使用的东西付费,毫无疑问他们最终支付的费用会远远少于常规许可方式的费用。这是因为大部分商业化软件的客户实际上是过度许可的:会为大量自己根本没有使用的软件付费。整个软件行业在本地部署软件许可费用的收入减少幅度远大于从云订阅中所获得收入的增速。云环境真正实现了“付出更少,做的更多”。

底线是:除非 Viya 提供更灵活的定价模式,否则没人会关心它的“云就绪,弹性,可缩放”。

如果想找点乐子,下次当你的 SAS 客户代表鼓吹 Viya 的弹性时,不妨问问对方这软件每使用一小时,软件许可需要花多少钱,然后欣赏一下对方纠结的表情吧。

开放的分析开发环境

SAS Analytics 使得数据科学家可以轻松地使用各种编程语言,无论 Python 笔记本、Java 客户端、Lua 脚本接口或 SAS,数据建模人员和数据科学家都可以轻松地使用 SAS 完成各种数据操作、高级分析和分析报表任务。

我们都在期待通过 Lua 运行 SAS 的能力。

适应性架构和有保障的故障转移

具体做法取决于,并且需要具备足够的分析处理能力。必须确保所有分析运算可以不被打断顺利完成。SAS Viya 的容错设计可自动检测故障的服务器,甚至可支持多平台处理环境,并能根据需要对处理任务进行分布。同时该技术可在处理群集内维持数据的多个副本。如果群集中某台计算机不可用或故障,还可从其他机器获取所需数据,快速恢复处理任务。这些自治愈机制确保了可提供不打断处理工作,可自动恢复的高可用性。

“可在 Hadoop 上运行。”

在接受福布斯的采访时,SAS CEO Jim Goodnight提到了 Viya 的优势:

我们已经面向大数据做好了准备…(我们)刚刚发布了全新架构 Viya 的第一个版本,主要面向大规模并行计算领域,可将数据分散到数十台服务器上,随后使用这些服务器的所有处理器内核并行处理数据。也许同一时间可以并行通过 500 个内核处理这些数据,这种能力使得我们的产品可以应对某些非常非常大规模,以前根本无法解决的问题,例如逻辑回归。

也许有人可以为 G 博士提供更充分的论据。顺便要提一下,在大规模并行(MPP)环境中运行的商业化逻辑回归软件早在 1989 年就已问世。目前有很多软件包提供了分布式逻辑回归功能,包括 SAS 五年前发布的软件包。

逻辑回归(非线性模型)是一种迭代的过程。基本上就是在试着估算模型的参数(Parameter),然后随便进行一下猜测,并通过猜测跑完整个数据,随后对模型进行优化并再次猜测,然后再次跑完整个数据,相同的过程一次次重复进行,直到参数实现汇聚或者根本再无太大变化。这可能要对整个数据集进行 25 次到 30 次运算。以前我们还必须多次读取数据,现在数据可以保存在内存中。放在内存中的数据将始终留在内存里,并分散给 500 个处理器内核,每个内核只需要处理少量数据,这样就可以在几分钟里完成 25 次迭代,以往这一过程需要数小时。

其实和 Spark 差不多,但需要具备许可。

(Viya)其实是我们第三代大规模并行计算产品。七年前我们就开始着手研究这个问题,这是研究成果的第三次突破,终于把所有问题都解决了。

等到 2018 年,估计他会说用了九年时间终于实现了第四次突破。

在高性能分析领域,Viya 也许会比 SAS 的前几次突破实现更好的效果。然而他们所面临的障碍本身也不大,SAS 迫切需要证明他们高成本专有分布式框架比 Apache Spark 更优秀,而 Spark 正在快速成为企业大数据平台的新标准。

虽然 SAS 的多个产品均支持机器学习技术,但缺乏深度学习能力。SAS 营销团队针对深度学习制作了一些有用的内容,但仔细看看这些内容你会发现,根本没有什么能真正提供深度学习能力的产品。没错,我知道SAS Enterprise Miner 支持多层感知器(Multilayer perceptron),但SAS 不支持GPU、Xeon Phi、Intel Nervana,或任何其他能够让你不用等到老就能完成深度神经网络训练任务的高性能架构。

如果你认为用一台服务器运行一款18 岁高龄的产品就足以胜任你的深度学习项目,那你说的一定是SAS。然而要注意,NVIDIA 的DGX-1,这款借助GPU 加速的深度学习硬件设备具备250 台传统服务器运算能力的强大性能,这是有原因的:你真的需要这么强大的运算能力。

SAS 的其他业务似乎发展的挺顺利。庞大的现有客户群所产生的续订、升级,以及超售行为可以让他们在 2016 年实现比较低的个位数收入增长率,考虑到 IBM、Oracle,以及 Teradata 的业务下滑,这样的成绩不算很差。

业务分析领域的领军企业

根据 IDC 最新的全球软件市场份额报告,本节介绍的五家公司在业务分析软件方面每年至少赚到十亿美元销售额。然而他们的大部分收入来自数据仓库和商业智能软件,其实都沿袭了SAS 在预测分析领域的收入模式。

然而“软件许可收入”是一种容易造成误导的指标,因为现在开源软件的应用越来越普遍。例如IBM、微软,以及Oracle 都在大量使用开源的机器学习软件对自家的数据仓库和商业智能平台进行扩展,而这些领域都是他们的强项。IBM 使用Spark 作为自己众多产品的基础。微软也已将R 集成在SQL Server 和PowerBI 中,并积极地向自己的企业客户推广R。Oracle 也采取了类似做法。

IBM

与 SAS 不同,日渐衰弱的科技巨头 IBM 从未给自家的旗舰级高级分析软件 SPSS 开发过任何专有的分布式框架。相反,这家公司选择使用数据库内引擎(DB2、Netezza 和 Oracle)以及开源框架(MapReduce 和 Spark)。

IBM 对 Apache Spark 有贡献,并将其用在自己的很多产品中,此外还对 Apache SystemML 有贡献。IBM Research 开发了 SystemML 的核心,并在 2015 年将其捐献给 Apache。IBM 还通过各种教育和培训对 Spark 社区做出了大量贡献。

2016 年,IBM 依然以 2007 年收购而来的 SPSS Statistics 和 SPSS Modeler 为主要营销目标。SPSS Modeler 的 Release 18 版本于 3 月发布,包含诸多改进,例如为DB2 提供了对机器学习的支持,以及在BigInsights 中提供了针对IBM General Parallel File System(GPFS)的支持。然而没几个数据科学家关心这些,貌似只有150 多个企业的CIO 依然笃信没人会因为买了IBM 的产品而被炒鱿鱼。

第一篇文章曾经提过,IBM 的机器学习产品正在逐渐迁入IBM 的云平台,用莎士比亚的名言代表我的想法吧:无事生非(Much Ado About Nothing)。

微软

微软今年在机器学习和深度学习领域收获不错。正如在第一和第二篇文章中提到的,2016 年,微软通过Azure 发布了一系列涵盖视觉、语音、知识,以及搜索的认知API,并通过Azure HDInsight 提供了Spark 托管服务,同时还完善了Azure 机器学习,并以Microsoft Cognitive Toolkit 为名发布了2.0 版深度学习框架。

这才只是开始。

1 月,微软发布了 Microsoft R Server,该产品源自微软 2015 年收购的 Revolution Analytics。Microsoft R Server 包含一套增强的 R 发行版,一个可缩放的后端,以及其他集成工具。这一年里,微软发布了 R Server 的两个重大版本,第 8 版中增加了与Spark 的Push-down 集成,第9 版更新了适用于Spark 2.0 的Spark 集成,并增加了 MicrosoftML ,这是一个适用于机器学习的新版 R 软件包。

微软 3 月发布的 SQL Server 2016 内含 SQL Server R Services 。在 Revolutions 博客上,David Smith报道了此次发布的新版,同时Toma? Ka?trun解释了 SQL Server 中的 R 服务所能实现的用途。

11 月,经过进一步预览后,微软正式发布了适用于Azure HDInsight 的R Server,这是一种专门针对HDInsight 打造的,可横向缩放,能与Spark 群集集成的R。

微软还为Azure提供了一个Linux 版本的Data Science Virtual Machine(DSVM)。这种针对数据科学家提供的虚拟机以前只能运行 Windows 实例,DSVM 内含 Revolution R Open、Anaconda、Visual Studio Community Edition、PowerBI Desktop、SQL Server Express 以及 Azure SDK。

PowerBI 是一套功能强大的微软数据可视化工具,该工具于 8 月开始支持 R。ComputerWorld 的 R 用户 Sharon Machlis 对此感到极为激动。此外Revolutions 博客对此也进行了介绍

R Tools for Visual Studio 在 3 月发布了公开预览版,并于9 月正式发布。同样在9 月,微软还发布了 Microsoft R 客户端,这是一款免费的数据科学家工具,可配合 Microsoft R Open 和 ScaleR 分布式后端运行。

微软数据科学家 Gopi Krishna Kumar、Hang Zhang 以及 Jacob Spoelstra 联手开发了一种适用于数据科学家的方法论,并在 9 月举行的 2016 年度微软机器学习和数据科学峰会中进行了介绍。David Smith 对此有报道。发明者们将该方法称之为 Team Data Science Process ,提供了一种可使用诸如 Git 等系统管理项目内容的标准化目录结构,此外还包含为整个过程提供支持的开源工具。

除此之外,雷德蒙特这一年在其他方面都较为平淡。

Oracle

对于严重依赖 Oracle 产品的用户,Oracle 提供了一系列极为强大的机器学习工具,包括:

Oracle 宣称 ORAAH 的原生算法比 Spark 速度更快,但 ORAAH 只有两种算法,所以也没人会在乎。Oracle 有一家合作的 OEM 厂商 Cloudera,因此这个版本的 Spark 至少也算是一个比较重要的版本。

除了上文列出的这些产品,Oracle 在 2016 年貌似也没别的什么重大产品发布。

SAP

SAP发布了新版的预测式分析产品,并将其更名为SAP Business Objects Predictive Analytics 3.0。该产品包含两套相互独立的自动化功能,一套名为Predictive Factory,另一套名为HANA Automated Predictive Library。Predictive Factory 与SAS Factory Miner 类似,是一种脚本工具,可以帮助数据科学家创建模型管道,并对其执行进行调度,但该工具无法对数据科学流程本身实现自动化。HANA Automated Predictive Library 是一系列可包含在SQL 脚本中的函数调用。

HANA Automated Predictive Library 是一系列可包含在 SQL 脚本中的函数调用,但该产品可能只适合 SAP HANA 的狂热用户,并不适合其他人。

SAP 在 2014 年收购了 KXEN 以及该公司旗下的 InfiniteInsight 软件。根据 Gartner 的调查,该公司的客户满意度已跌至谷底,SAP 也已落后于所有其他高级分析产品供应商。以前的InfiniteInsight 用户开始产生两个阵营:(a)IT 部门已经开始大量投资SAP 产品的用户,以及(b) 其他所有用户。前者似乎对这些软件的依赖性很强,而SAP 已经开始将其集成于自家产品中;后者则在争先恐后地逃离。

Teradata

日渐衰败的数据仓库供应商 Teradata 认为自己可以提供极为强大的分析能力。实际上,该公司的大部分收入来自数据仓库业务,在这个领域,诸如 Gartner 等分析师给出了较高的评价。

也许可以说 Teradata 在整个栈的底层有着居高临下的地位。

Teradata 的高管们(如果可以这样称呼他们的话)彻底忽视了 Hadoop 和云计算的影响力。相反,他们笃定地认为 Teradata 这个品牌是 IT 高管们的挚爱,用户还会大批大批地购买他们的设备。这种狭隘的世界观导致该公司现在的市值已缩水至五年前的三分之一。他们的产品销量已经连续十季度下滑,并连着七个季度遭遇两位数的下滑。

经历了低靡的一季度后,Teradata 的董事会炒掉了接受了CEO Mike Koehler 的辞呈,并由董事会长期成员Victor Lund 接任CEO 职务。9 月的Teradata 合作伙伴大会上,Lund宣布了 Teradata 会将自己重新定位为一家“分析解决方案”公司。

这还怎么与 SAS 友好地“在一起”?作为 Teradata 在高级分析软件方面的主要合作伙伴,SAS 也将自己定位为一家“分析解决方案”公司。当然,不同之处在于,SAS 在提供这种解决方案方面已经有很久远的历史,并与用户企业的高管建立了一定的“街头信誉”,毕竟他们的业务解决方案还是挺成熟的,包含实用的软件和自己的知识产权,而 Teradata 除了“改变世界的伟大想法”和 PowerPoint 幻灯片,似乎什么都没有。

给 Teradata 的管理层支个招:嘴上说要向着价值链的上游进军,并不意味着你就有这样的能力。

其他方面,该公司宣布 Aster 终于可以支持 Spark 了,但早在两年前就没人在乎这事啦。Teradata 还宣布 Aster 的分析功能已经可以部署到 Hadoop。Hadoop 上的 Aster 就是一把无刃还无柄的刀,这个商业化的机器学习可是要与无数开源的库血拼的。Aster 还要与Teradata 的另一个合作伙伴Fuzzy Logix 竞争,该公司的dbLytix 库比Teradata 库的功能丰富六倍,还更成熟。

如果有人提议押赌这套“解决方案”并解绑Aster,也许可以挽回Teradata 的颓势,但一定要考虑地够周密。

其他科技巨头

此外还有两家巨头:戴尔和HPE,不过他们就是“打酱油”的。

HPE

HPE宣布将公司旗下软件资产(包括 Vertica Haven )作价 25 亿美元现金出售给英国公司 Micro Focus。按照交易协议,Micro Focus 同时会将价值 63 亿美元的股权直接转让给 HPE 股东。HPE 过去十年来为了这些资产付出了将近200 亿美元。估价仅为收入的大约2.4 倍,这意味着双方都认为该业务只有很少,甚至毫无增长潜力。Micro Focus 以裁人缩减成本而著称,因此如果你正在为Haven 或Vertica 工作,也许该考虑更新一下自己的简历了。

3 月,HPE宣布 Haven OnDemand 将可用于 Microsoft Azure。Haven 是一种将 Autonomy、Vertica、ArcSight 以及 HP Operations Management 松散拼凑在一起的软件组合机器学习套件,最初名为 HAVEn,是 HP 在 2013 年 6 月发布的。2015 年,HP 通过自家目前已黯然离场的云平台Helion 公有云发布了Haven。因此三月的发布等于是将这款软件重新进行了“重发布”。

在三年的产品生命周期里,Haven 并没能得到数据科学家的青睐。KDnuggets 2016 数据科学家软件使用情况调查中,2,895 位受访者仅两人称在使用该软件,O’Reilly 2016 数据科学家薪资调查中甚至无人使用该软件。更难堪的是,Haven 甚至没能上榜KDnuggets 的机器学习API Top 50榜单,而甚至 Ersatz Hutoma ,以及 Skyttle 这样的产品都已上榜。

在分析需求比较简单,SQL 即可满足需求的少数数据爱好者群体中,Vertica 还占有着一席之地。根据 DB-Engines 的调查,目前 Vertica 在关系型数据库领域的流行度排名第 28 位,与 Netezza 和 Greenplum 的表现相当,略好于 Aster。在被 Micro Focus 接手后,预计排名很快会大幅下跌。

戴尔 /EMC

戴尔在 2014 年收购了 Statsoft 并开始涉足高级分析业务,但这一举措根本无人问津。2016 年,戴尔将自己的软件部门卖给私募投资者并黯然离场

再见,戴尔。我们几乎快不认识你了。

作者 Thomas W. Dinsmore 阅读英文原文 THE YEAR IN MACHINE LEARNING (PART THREE)


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017 年 2 月 05 日 16:162155
用户头像

发布了 283 篇内容, 共 84.6 次阅读, 收获喜欢 34 次。

关注

评论

发布
暂无评论
发现更多内容

第一周总结

积极&丧

架构师训练营 - week1 - 食堂就餐系统设计

month

极客大学架构师训练营

食堂就餐卡系统设计

ABS

架构师训练营第 1 期-week1-食堂就餐卡系统设计

习习

第一周课后练习 - 作业2

致星海

第1周内容总结

paul

「架构师训练营第 1 期」第一周作业

张国荣

极客大学架构师训练营

架构师训练营第一期作业

sean

极客时间架构1期:第1周架构方法-学习总结

Null

第一周学习总结

kevin

第一周学习笔记及uml设计

橘子皮嚼着不脆

第一周学习总结

mm马

极客大学架构师训练营

读书笔记丨计算机网络和因特网

Liuchengz.

计算机网络

架构师训练营第1期-Week1 架构方法学习总结

鲁小鲁

软件工程 极客大学架构师训练营 UML 架构方法

第一周课后练习 - 作业 1

致星海

架构师训练营作业:第一周

m

关于软件建模语言UML总结

solike

极客大学架构师训练营

架构师训练营第一周作业

Erwa

极客大学架构师训练营

Python 之父为什么嫌弃 lambda 匿名函数?

Python猫

Python 学习 编程

架构师训练营第一周心得

CmHuang

食堂就餐卡系统设计

积极&丧

架构师训练营第一期第一周课后作业

cyningchen

极客大学架构师训练营

作业-2020-9-20

芝麻酱

极客大学架构师训练营

Week 1 作業一:食堂就餐卡系統設計

Christy LAW

架構師 極客大學 女程序員

架构师第一期作业2

sean

架构师训练营第一周学习笔记

一马行千里

学习 极客大学架构师训练营

架构训练营1期-第1周练习

balsamspear

极客大学架构师训练营 第一周命题作业

作业-食堂就餐卡系统设计

solike

极客大学架构师训练营

第一周作业

极客大学架构师训练营

week1总结

willson

架构一期-甘霖-Week1-食堂卡系统设计

小粽

InfoQ 极客传媒开发者生态共创计划线上发布会

InfoQ 极客传媒开发者生态共创计划线上发布会

2016机器学习大盘点(第3篇)-InfoQ