数据不是石油,占得多未必有用

阅读数:1759 2019 年 2 月 11 日

话题:大数据文化 & 方法方法论

如果您从事数据科学或相关领域的工作,您可能之前听过这个说法:数据是新的石油资源。

这句话的来源可以追溯到 2006 年,由数学家 Clive Humby 最先说出,Humby 强调了这样一个事实:尽管数据本身很有价值,但数据需要处理,就像石油需要在其真正价值被解锁之前需要精炼一样。在 2017 年的一份经济学报告上,这句话被经济学家再次提起:世界上最有价值的资源不再是石油,而是数据。

可是,随着大数据和人工智能的炒作趋于平静,越来越多的数据科学家站出来提出了另一种观点:数据并不是新的石油。本文整理了一些专家的论点,仅供读者参考,如果您有其他的想法也欢迎留言与我们交流。

Bernard Marr:数据更像是一种全新的商品

Bernard Marr 是一名国际畅销书作家、主题演讲人、未来学家,以及政府和公司的战略业务和技术顾问。他帮助组织提高业务绩效,更智能地使用数据,并了解人工智能,大数据,区块链和物联网等新技术的含义。用现在的话来说,这位 Bernard 是一位妥妥的“斜杠”人物。

他首先对数据和石油从开采到使用等方面进行了区别,他认为:

石油是一种有限的资源,但数据却是无限耐用和可重复使用的。这意味着将数据视为石油这样囤积并存放在筒仓中,几乎没有任何好处且会降低其实用性的看法是不准确的。

其次,石油需要大量的资源才能运输到需要的地方,而数据可以无限复制,并以光速,通过光纤网络以极低的成本在世界各地移动。

此外,数据使用得越多越有用,它的能量不会作为热量或光线损失,或者永久地转换成另一种形式,就像用石油制造塑料一样。经过处理后的数据通常会显示到应用程序中,例如:从患者收集的医疗数据可以帮助医生诊断和治疗个体患者,之后,它可以被匿名化并输入机器学习系统,以产生更广泛的见解,可以使许多人受益。

而随着世界石油储量的减少,开采变得越来越困难和昂贵。相反,随着计算机技术的进步,数据会越来越多,人们的商业和休闲活动会越来越多地转移到线上。并且,数据挖掘本质上不涉及对自然环境造成破坏和开采有限的自然资源(除了用于运行系统的电力)。

数据,特别是大数据的变化也远远超过石油。从地面钻出的原油当然会以各种方式加工成许多不同的产品,但在原始状态下,它们都是相同的。而数据可以表示文字、图片、声音、想法、事实、测量、统计或任何其他可以由计算机处理成组成数字信息的 1 和 0 串的字符串。

不过,在 Bernard 来看,数据与石油还是有相同之处的,比如它们都是权力的来源

控制数据的人(比如亚马逊,阿里巴巴,Facebook 或谷歌)正在让自己成为这个星球的主人,正如 100 年前石油大亨所做的那样。这样的做法甚至使一些人认为:数据挖掘巨头有责任确保他们的资源为整个人类的利益而服务,而不是简单地给自己赚钱。

不受管制的数据挖掘会导致一系列不同的问题,比如隐私问题以及由少数人掌握信息导致的权力不平衡。

Bernard 认为,如果我们将数据视为电源或燃料,那么将它与太阳能、风能或者潮汐等可再生能源类比会更有意义。数据的储备量很多,比我们目前可以使用的更多,它不像石油那样因为稀缺而被限制供应,人们应该考虑如何让数据更广泛地供每个人使用。

Bernard 说,事实上,现在我们可用的数据是一种全新的商品,将它与现有的旧资源进行类比,除了传达“数据是有价值的”这种想法之外,很大程度上是一种毫无意义的做法。他认为,考虑数据多样化的应用在很多领域都可以取得积极的成果,比如教育、医疗保健,甚至减少饥荒和应对大气变化等。

Reza Zadeh:数据≠石油,拥有数据≠赢得一切

Reza Zadeh 是斯坦福大学人工智能的兼职教授,也是计算机视觉初创公司 Matroid 的创始人兼首席执行官。

在数据和石油的问题上,Reza Zadeh 的观点还是和 Bernard 有较高重合的:数据在这个时代更像是一种商品。不同的是,在他看来,虽然互联网巨头拥有数据优势,即使在数据密集型业务中领先,也无法永久保持领先优势。

以苹果公司的 Siri 为例,作为第一个消费级 AI 助手,Siri 是 2011 年的工程奇迹,它向消费者展示了声控技术的最新成果。Siri 拥有独特的访问权限,可以访问大量用户的语音查询以及他们对其答案的反应。然而,三年后,亚马逊的 Alexa 让 Siri 黯然失色,过向其他公司开放技术 Alexa 打入了人们生活的各个角落,从汽车到音箱,亚马逊建立了广泛的 Alexa 生产系统。

可是,亚马逊的优势地位也在谷歌助手的出现之后丧失了。谷歌助手不仅可以理解口头命令,而且会基于知识图解答问题,用于回答除了网络链接之外的事实查询。根据市场研究公司 Strategy Analytics 的数据,亚马逊在智能音箱市场的份额比一年前减少了三分之一以上,而谷歌的占有率几乎翻了一番。

同样的例子不胜枚举。无人机制造商大疆收集的飞行数据并没有让自己稳坐无人机第一的宝座,Skydio 设计了更好的避障障碍算法抢占了不少的市场;优步拥有大量司机、乘客和路线的数据,但这并没有挡住 Lyft 的蓬勃发展;即使拥有超过全人类三分之一的用户数,Facebook 也不得不购买 Instagram 来抵消存在的威胁;雅虎在 1998 年拥有比任何人更多的网络搜索数据,但仍然被当时的新贵谷歌压垮了。

Reza Zadeh 认为:数据优势是短期的,并且在变得越来越短。即使在专业领域也是如此。比如 Paige.AI 独家进入 Memorial Sloan Kettering 癌症中心的组织切片库,使其在癌症诊断自动化竞赛中处于领先地位,但很快,这家公司将面临其他挑战者,他们会设法从其他机构获得切片库。那么 Paige.AI 就要像互联网巨头和独角兽创业公司一样:别无选择,只能继续创新

结语

数据到底算不算这个新时代的石油资源?相信不论从哪一方的支持者口中,我们都能得到各种无法反驳的理由,或许您在看完这篇文章后会改变自己的想法,又或者更加坚持自己的想法了,只要您想要表达自己的观点,欢迎留言与我们分享。

参考链接:

https://venturebeat.com/2019/02/10/data-is-not-the-new-oil/

https://www.forbes.com/sites/bernardmarr/2018/03/05/heres-why-data-is-not-the-new-oil/#4e4bc5353aa9