架构师(2018年8月)

本期主要内容:Kotlin生态调查结果出炉:超过6成的开发者用过Kotlin了;Stream从Python切换到Go的原因;腾讯大规模分布式机器学习系统无量是如何进行技术选型的?GitHub的MySQL高可用性实践;运满满的技术架构演进之路;百度智能运维的技术演进之路
下载此书

DataPipeline 创始人 &CEO 陈诚

朋友圈最近看到一篇文章 ——《IBM 沃森错开致命药,国内 67 家医院在用,秘密文件曝光严重 bug》。虽然只是测试病例,但看上去沃森相当地不靠谱,给有出血症状的癌症病人开了容易导致出血的药品,严重时可致患者死亡。沃森是 IBM 花了 150 亿美元培养的 AI 学霸,成绩不尽如人意,部门不能盈利,失望在所难免。然而 AI 正如一个学习能力超强的小孩子,需要反复研习各种病例、新药,来提高判断的准确度。

无独有偶,最近也有另一篇报道说亚马逊 AI 的人脸识别系统遭到质疑,从 535 位美国参众两院议员中识别出 28 名“罪犯”,一时引起大量对于公共安全和执法准确率的担忧。亚马逊迅速在回应中提到在对 Rekognition 系统人脸识别 API 的默认置信阈值被设置成了 80%, 建议应该使用 99%。然而这样设置的话确实可以大量减少“误判”,但是却会产生更多的“漏判”,结果仍然未必会让人满意。

大众在 AlphaGo 之后对于 AI 的想象都是有点像孙悟空,在菩提祖师那里混了 7 年,而后一夜悟道,从此速度一日千里。然而任何创新的技术都需要快速迭代、不断更新。我们对于新技术既不需要盲目追捧,也不用质疑攻击。人工智能之所以是人工的,不就是因为我们人类善于思考,可以辩证客观地看待问题吗?

数据的质量和模型都会对 AI 结果产生巨大的影响,这次我们来聊聊数据。 AI 的判断,高度依赖于我们输入给它的“知识”,如果输入数据不够准确、不够完整,得出的判断不靠谱也在意料之中。大部分数据分析师,每天都要花费大量的时间和精力去“整”数据,无论是数据质量,还是数据的完整性,一致性都差强人意,最高精尖的工程师也要花大力气去做最基础的数据工作,AI 能不能不以事小而不为,帮我们先解决了数据的事儿?

AI 不是万能的,数据不是万能的,没有数据是万万不能的。我们对于世界的认识和认知,进行抽象提取,而后成为知识。数据是这一切的基础。数据失之毫厘,AI 的结果差之千里。数据工程师和 AI 算法工程师是背靠背的一对兄弟,相辅相成,谁也离不开谁。

创办 DataPipeline 之初,我们以为数据的事儿比起 AI,门槛没有那么高,但是适用面广,然而越做越敬畏。如果 AI 最终的目的是帮助人类解决各种各样的问题,那么数据就是这个大厦最坚实的基础,基础不牢,地动山摇。我们不能只要顶层的无敌视野,却不愿意为打地基付出汗水和努力。数据的工作繁杂,日复一日,各种重复,远不如 AI 的高大上,然而吃不饱肚子,怎么追求精神上的富足?

回过头来看沃森的误判,病人有严重的出血症状,这个重要的信息,这条数据,究竟在哪个环节被“丢”掉了?

目录

热点| Hot

Kotlin 生态调查结果出炉:超过 6 成的开发者用过 Kotlin 了

推荐文章 | Article

Stream 从 Python 切换到 Go 的原因

专题 | Topic

腾讯大规模分布式机器学习系统无量是如何进行技术选型的?

GitHub 的 MySQL 高可用性实践

运满满的技术架构演进之路

百度智能运维的技术演进之路

特别专栏|Column

面向大规模 AI 在线推理的可靠性设计