架构师（2018年8月）_《架构师》月刊_InfoQ 中文站

架构师（2018年8月）

发布于：2018-08-07 08:32

本期主要内容：Kotlin生态调查结果出炉：超过6成的开发者用过Kotlin了；Stream从Python切换到Go的原因；腾讯大规模分布式机器学习系统无量是如何进行技术选型的？GitHub的MySQL高可用性实践；运满满的技术架构演进之路；百度智能运维的技术演进之路

查看更多 

下载此书

DataPipeline 创始人 &CEO 陈诚

朋友圈最近看到一篇文章 ——《IBM 沃森错开致命药，国内 67 家医院在用，秘密文件曝光严重 bug》。虽然只是测试病例，但看上去沃森相当地不靠谱，给有出血症状的癌症病人开了容易导致出血的药品，严重时可致患者死亡。沃森是 IBM 花了 150 亿美元培养的 AI 学霸，成绩不尽如人意，部门不能盈利，失望在所难免。然而 AI 正如一个学习能力超强的小孩子，需要反复研习各种病例、新药，来提高判断的准确度。

无独有偶，最近也有另一篇报道说亚马逊 AI 的人脸识别系统遭到质疑，从 535 位美国参众两院议员中识别出 28 名“罪犯”，一时引起大量对于公共安全和执法准确率的担忧。亚马逊迅速在回应中提到在对 Rekognition 系统人脸识别 API 的默认置信阈值被设置成了 80%，建议应该使用 99%。然而这样设置的话确实可以大量减少“误判”，但是却会产生更多的“漏判”，结果仍然未必会让人满意。

大众在 AlphaGo 之后对于 AI 的想象都是有点像孙悟空，在菩提祖师那里混了 7 年，而后一夜悟道，从此速度一日千里。然而任何创新的技术都需要快速迭代、不断更新。我们对于新技术既不需要盲目追捧，也不用质疑攻击。人工智能之所以是人工的，不就是因为我们人类善于思考，可以辩证客观地看待问题吗？

数据的质量和模型都会对 AI 结果产生巨大的影响，这次我们来聊聊数据。 AI 的判断，高度依赖于我们输入给它的“知识”，如果输入数据不够准确、不够完整，得出的判断不靠谱也在意料之中。大部分数据分析师，每天都要花费大量的时间和精力去“整”数据，无论是数据质量，还是数据的完整性，一致性都差强人意，最高精尖的工程师也要花大力气去做最基础的数据工作，AI 能不能不以事小而不为，帮我们先解决了数据的事儿？

AI 不是万能的，数据不是万能的，没有数据是万万不能的。我们对于世界的认识和认知，进行抽象提取，而后成为知识。数据是这一切的基础。数据失之毫厘，AI 的结果差之千里。数据工程师和 AI 算法工程师是背靠背的一对兄弟，相辅相成，谁也离不开谁。

创办 DataPipeline 之初，我们以为数据的事儿比起 AI，门槛没有那么高，但是适用面广，然而越做越敬畏。如果 AI 最终的目的是帮助人类解决各种各样的问题，那么数据就是这个大厦最坚实的基础，基础不牢，地动山摇。我们不能只要顶层的无敌视野，却不愿意为打地基付出汗水和努力。数据的工作繁杂，日复一日，各种重复，远不如 AI 的高大上，然而吃不饱肚子，怎么追求精神上的富足？

回过头来看沃森的误判，病人有严重的出血症状，这个重要的信息，这条数据，究竟在哪个环节被“丢”掉了？

创作场景

架构师（2018年8月）

作者：InfoQ 中文站

目录

评论

订阅

[译] D8 优化

sftp的使用

kubelet分析-csi driver注册分析-Node Driver Registrar源码分析

谁也讲不明白的SQL注入攻击被我讲明白了（中）？

如何做好技术选型和分析决策

基于FPGA系统合成两条视频流实现3D视频效果

这样理解Mysql索引，阿里面试官也给你点赞

硬刚Hbase - 17道题你能秒我？我Hbase八股文反手就甩你一脸

硬刚Hive | 4万字基础调优面试小总结

JAVA 面向对象 (十二)-- 关键字 super

创业者需要知道的13种思维模型

（序）【Spring源码专题】展开Spring源码构建之旅（利用IDEA和Gradle）

硬刚Presto | Presto原理&调优&面试&实战全面升级版

「SQL数据分析系列」10. 重谈连接

zip解压缩

计算机网络概述

最佳的管理者-库克

2021最新Spring Security知识梳理

硬刚用户画像(一) | 标签体系下的用户画像建设小指南

迷惘的六月份

架构实践营模块7作业

可编程网关 Pipy 第三弹：事件模型设计

硬刚ClickHouse | 4万字长文ClickHouse基础&实践&调优全视角解析

我的书要出版啦～

Spring事件发布与监听机制

硬刚Apache Iceberg | 技术调研&在各大公司的实践应用大总结

架构实战训练营 - 模块七课后作业

硬刚数据仓库|SQL Boy的福音之数据仓库体系建模&实施&注意事项小总结

浏览器设备信息UserAgent查询

基于机器学习的自动化测试弹窗处理实践

文件IO

创作场景

架构师（2018年8月）

作者：InfoQ 中文站

目录

评论

推荐阅读

订阅

大厂实战PPT下载