写点什么

数据科学的革命之区块链(第一部分)

  • 2018-05-17
  • 本文字数:1790 字

    阅读完需:约 6 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

预测分析 - 利用群体智慧的力量

现阶段的机器学习在一些复杂的社会现象的预测上是存在困难的,但是我们可以看到利用群体智慧这种方式在处理类似问题上的巨大发展潜力。群体智慧 指由个体组成的集体性的决策能力。在影响和预测人类行为等类似方向上,利用集体智慧已经展现出了良好的效果。一些相关学术论文中也提到个体决策本身是存在偏见的,但是如果把很多个体的决策放到一起,那么个体决策中偏见部分就会被消除,从而得到一个非常正确的预测结果。关于群体智慧模型方面也存在几种不同的方式,比如允许一个群体中的不同个体在进行决策时可以影响其他个体,或者被影响。这种群体智慧模型我们称之为 Crowds Within。

最近在 社会物理学 领域这种研究方式又重新出现。这个领域遵循一些简单的原则,并通过大规模的人类活动数据来发现并预测群体的一些行为模式。MIT 媒体实验室的 Alex Pentland 在他的区块链公司 Endor 中正在尝试将社会物理学与区块链技术相结合,创造出一个去中心化的协议来进行预测分析。用户可以在这个平台上通过一些简单的自然语言(比如提问 “ 谁会赢得总统大选 ”),然后得到由社会物理学基于大量的独立个体样本回答计算得出的最终答案。这个平台跟现存的预测市场比较类似,但是其最大的优点就是去中心化。因为这种模式不会像中心化的那些预测市场一样,可能受到人为操纵或者影响的风险,所以平台给出的结果可以保证不会被平台的拥有者篡改。此外,因为所有的预测都是公开透明的(每个人都可以看到),所以预测结果被第三方恶意篡改的风险也很小。

知识共享 - 创建知识共享经济

目前数据科学和机器学习存在一个问题是,很多团队或个人在进行模型研发和设计的时候是从零做起,很难从现有的、别人已经完善了的模型中汲取相关经验,或者直接采用。重复造轮子的过程数不胜数,经常会发现辛苦研究的内容是别人早已经做好并且完成了优化的。此外,人们还经常发现有了模型之后,却缺乏相关的数据进行训练和调优,完全不知道是否有其他在处理类似问题的团队已经有相关的数据。总结一下,其实就是缺乏一种在机器学习领域的知识共享途径和方式;我们当前缺乏一种简单有效的模型学习和分类的平台。

这也是 Synapse AI 这样的项目尝试去解决的问题。 Synapse AI 初衷是创建一个数据提供者、机器学习者,以及模型使用者这样的三方平台,在其之上可以很好地进行相关的知识、想法的分享,并慢慢形成一个稳定的循环经济生态。而通过代币来保证的这个系统的经济生态,可以让有需求的团队能从第三方团队那里获取所需的服务或数据,也是一种对服务提供方的经济奖励。通过这个平台,机器学习方也可以查询到更多的数据和更多的功能,类似于一种主动学习的方式。

众包打标 - 超越亚马逊的打标平台 Mechanical Turk

像亚马逊 Mechanical Turk 一样的打标平台,不论对数据提供者还是打标的人们来说,都处于一个比较低效的状态。这些中心化的平台是通过冗余的方式来保证打标效果的一致性和正确性。所以,一份相同的数据,会被多次进行甄别,并从中选择出主流标签作为最终的结果。对于数据的提供者来说,这是一种低效的办法,因为他们需要为冗余的甄别操作进行付费。而对于负责进行打标的人员来说,冗余的数据也为他们产生了不必要的工作负担。

Gems 这样的的采用代币作为货币的去中心化平台,其初衷就是为了解决上述的问题。Gems 主要面向三类用户:矿工(负责打标的人),质量管理员(负责验证打标效果的人),以及请求人(提供打标任务的人)。Gems 使用代币机制来保证他们这个平台内的健康稳定的经济体系。每个团队使用代币来完成交易,并且当他们的工作质量没有达到预期的时候,他们会被扣除所持有的代币作为一种惩罚方式。此外,Gems 还基于一套复杂的信任和荣誉机制来构建了平台的服务历史,并且平台之中每个人的历史操作对于他人来说都是可见的(因为可能有一些持有大量代币的团队可能会以损失部分代币为代价发起一些恶意攻击)。代币的方式对新用户也是非常有好的,因为代币并不需要你拥有一个银行账户。

查看英文原文 how blockchain will revolutionize data science


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2018-05-17 19:002060

评论

发布
暂无评论
发现更多内容

代码作业

Geek_4c1353

极客大学架构师训练营

2020年的Java程序员面试三件套:多线程+算法+微服务

Java架构师迁哥

架构师训练营 - 第五周 - 作业二

行者

架构师训练营 1 期第 5 周:技术选型(一) - 总结

piercebn

极客大学架构师训练营

食堂就餐卡系统设计

菜青虫

Netty源码解析 -- ChannelPipeline机制与读写过程

binecy

Netty nio 源码剖析

Git:使用Git之前的配置

bobo

git

关于Java面试必备的Java集合知识,终于有大佬总结整理出来了!

Java架构之路

Java 程序员 架构 面试 编程语言

一个程序猿应该具备哪些能力?

锐哥

程序员 1024讲话 1024

架构师1期-技术选型(一)作业

ltl3884

极客大学架构师训练营

架构师训练营 - 第五周 - 作业一

行者

架构师训练营第五周作业

我是谁

极客大学架构师训练营

【高并发】面试官问我:为什么局部变量是线程安全的?

冰河

多线程 高并发 高性能 线程安全 签约计划第二季

ping TCP端口的实用小工具tcping

网络 ping tcping

架构师训练营 第一课作业

文江

SQL优化-分治思想

李印

MySQL SQL优化

架构师训练营第五周作业——一致性哈希算法

文智

极客大学架构师训练营

架构师训练营W01作业

Geek_f06ede

极客大学架构师训练营

第五周 实现一致性 hash 算法

Geek_fabd84

架构师训练营第1周学习总结

菜青虫

极客大学架构师训练营

1024|推荐一个开源免费的Spring Boot教程

Java旅途

Java 开源 Spring Boot

学习总结

TONNY

一个大型的互联网应用系统使用了哪些技术手段

kawayi

架构师训练营 W01 总结

Geek_f06ede

极客大学架构师训练营

第13周作业

Vincent

极客时间 极客大学

第13周总结

Vincent

极客时间 极客大学

介绍几种微商常见的引流方式

boshi

营销 电商

并发环境下,先操作数据库还是先操作缓存?

捡田螺的小男孩

数据库 缓存 后端 并发

架构师训练营第一周作业

TONNY

二十二、 深入Python的进程和线程(上篇)

刘润森

Python

周练习 5

何毅曦

数据科学的革命之区块链(第一部分)_语言 & 开发_Devin Soni_InfoQ精选文章