架构师(2018年7月)

本期主要内容:Spark团队开源新作:全流程机器学习平台MLflow;Google发布Flutter Release Preview 1;独家揭秘:腾讯千亿级参数分布式机器学习系统无量背后的技术门道;阿里巴巴为什么不用 ZooKeeper 做服务发现?
用户头像
作者: InfoQ 中文站
下载此书
架构师(2018年7月)

作者 丁香园资深数据架构 祝威廉

大数据部门的常见能力如下:

  1. 报表统计
  2. 算力 / 存储输出
  3. 推荐 / 搜索 / 精准营销等传统产品形态

通常,大数据部门会花费很大的力气构建数据平台,而这个数据平台除了能让研发、、算法、、分析师等角色爽一些,从宏观角度很大地地节省部门人力成本、、提高效率以外,似乎对公司 / 其他业务部门并无直接输出。这也是很多大数据部门领导非常焦虑的地方。

那么出路在哪里呢?

All In AI

事实上,真正能帮助业务提高效能、、提供创新产品的必然是 AI。。AI 是一种模式的输出,,其价值点,第一个是可以给业务每个环节赋能,比如反垃圾可以减少审核同学的工作量,智能邀请可以减轻运营同学的工作压力;第二个是创新产品,高一点的有比较常见有无人驾驶、、智能语音产品、、医疗诊断等,低一点的,则可能是某个具体的功能模块对外输出,比如知识图谱。

从上面我们可以看到,数据部门的最大价值,最终会通过 AI 来落地,并且还会给部门 / 公司提供极为丰富的想象空间。

如何 All In AI?

对于这件事情,我们要仔细研究一个核心的东西: 资源。

资源我们又分为: 1. 平台资源,如果你还在刀耕火种阶段做开发、、做算法,那么咱也别谈什么 All in AI 了。 1. 人力资源,一场大型战争,核心还是在于看能动员的人力资源,面对海量需求,你是否有足够的人力去应付? 1. 组织资源,合理的组织是能够极大地地释放生产力的。

经过这么多年的发展,平台已经很成熟了。我们知道,AI 平台是基于数据平台的之上的,其结构是一个金字塔形状的。所以第一步你需要有一个良好的数据平台,其次你还需要有一个 AI 平台,让单一算法落地变得容易。

人力资源的问题是个大问题,算法团队再大,也就是大数据部门一个子部门 / 组。如何在保持现有成本的情况下,扩大人力呢? AI 平台对单一算法(后面我会解释什么是单一算法)问题是非常友好的,可能一个普通的工程师(甚至运营、、分析师)都可以完成的。这样,部门所有的人都具备了成为 AI 人力的潜能。我们通过一定的培训和锻炼,可以使得研发、、分析等都具备成为 AI 人才的潜力。需要的时候,我们提纯下即可。

回过头来看看,什么是单一算法。所谓单一算法就是具体的某个算法问题,比如对于帖子的情感分类,就是一个标准的文本分类问题。通常一个足够细化的问题,我们可以很容易将其转化为一个分类、、回归、、排序、、规则类算法问题。现阶段,按我的了解,AI 平台通常只能做到针对单一算法的自助化。那么为了让组织更加合理高效,重构数据部门团队就很有必要了。

算法部门需要切分成三个子团队,一个是偏研究性质的,一个是偏业务性质的,还有一个则是 AI 平台和工具团队。

业务性质的团队常常需要用到研究性质团队的副产品以及基于 AI 平台和工具团队的产品之上进行工作,同时向他们反馈自己的诉求和问题。

业务算法团队通常也需要分成两个层级,一个是解决方案设计者,该角色是将一个实际的业务问题分拆成 N 个算法和工程问题;;一个是算法实施者,该角色只针对单一算法问题,可以在 AI 平台上很快地地解决对应问题。

研究性质的团队可以分成三个部分,一个是读 Paper,试图将学术论文转化为工业实践;一个是算法基础构建,维护比如知识图谱这种非常底层的系统;一个是创新产品,目标是利用现有的算法抽象出新产品。

通过如上方法,有了很好的平台能力,很好的人员基础,加上合理的组织,All In AI 或许变得可能。

总结

本文我们说了为什么要 All In AI,要实现 All In AI 不仅仅需要有一个好的平台(数据、算法平台),也需要有良好的动员人力资源的能力,采用一个合理的算法组织架构充分利用人力资源。尤其是业务算法团队里的 “解决方案设计者”,该角色能够将一个实际的业务问题分拆成 N 个算法和工程问题,是 AI 落地非常非常重要的一个角色。

目录

热点 | Hot

Spark 团队开源新作:全流程机器学习平台 MLflow

Google 发布 Flutter Release Preview 1

理论派 | Theory

独家揭秘:腾讯千亿级参数分布式机器学习系统无量背后的技术门道

推荐文章 | Article

阿里巴巴为什么不用 ZooKeeper 做服务发现?

观点 | Opinion

Airbnb 弃用之后,我们还应该用 React Native 吗?

特别专栏 | Column

如何“计算”CEPH 读写性能

中心化 or 去中心化?聊聊交易所的辩证发展

免费下载此书(PDF)
免费下载此书(ePub)
免费下载此书(MOBI)

收藏

评论

微博

用户头像
发表评论

注册/登录 InfoQ 发表评论