阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

去中心化知识图谱协作平台建设实践

  • 2021-01-18
  • 本文字数:5078 字

    阅读完需:约 17 分钟

去中心化知识图谱协作平台建设实践

导读:1 月 10 日,由 EpiK 铭识协议主办的“2021 开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG 主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。在此次大会上,EpiK 借助区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践成为核心亮点并被一众专家学者给予高度评价。


接下来文章将从以下几个方面全面解析 EpiK 开源知识运动:


  • 为何要构建去中心化知识图谱协作平台

  • 开源知识运动面临的挑战

  • EpiK 铭识协议解决方案

  • 谁可以参与这场开源知识运动

为何要构建去中心化知识图谱协作平台

当前,人工智能时代已经来到下半场,我们不再满足于无法解释的模型模拟,赋予 AI 认知能力是必须突破的瓶颈。而在开阔 AI 认知的道路上,知识图谱作为机器读懂人类知识的重要媒介,正在成为人工智能时代重要的基础设施。


然而,大规模知识图谱基础设施的建设涉及到来自各领域间海量知识内容,对数据质量要求高,因此,需要组织不同领域大量的劳动力共同投入到建设当中。但是共建知识图谱的信任成本极高,企业间、国家间的互不信任,导致了大量的重复劳动,如何搭建知识图谱共建平台的需求浮现于众,而在共建平台之上贡献者们如何共享共益更是必然要解决的问题。


2020 年,是区块链去中心化存储技术成熟的一年,搭建一个无许可的、防篡改的、可追溯的公共数据库成为可能,共建共享共益的知识图谱协作平台有了实践基础。

开源知识运动面临的挑战

比特币价格不断冲击历史新高,DeFi、IPFS、DAO 等新兴区块链应用层出不穷,让人看到了更多区块链的可能性。但基于区块链构建共建共享共益的知识图谱协作平台并非易事,这要面临一系列的挑战:


首先,如何实现共建?将各知识领域的人组织在一起共同参与构建高质量的大规模知识图谱,有效的激励机制和严格的数据质量验收机制缺一不可;其次,如何实现共享?共享知识图谱数据面临着可信存储的问题,创建各贡献方都可以无许可访问的不可篡改的公共存储平台是必经之路;再次,如何实现共益?知识图谱数据可被 0 成本复制传播,为贡献者找到高效的可变现方式是持续协作的动力源。


基于此,EpiK 借助“去中心化存储、去中心化自治组织、通证经济模型”三大区块链前沿技术分支,提出了一套完整的解决方案。


EpiK 铭识协议解决方案

针对于去中心化知识图谱构建痛点,EpiK 深入剖析区块链技术应用,为去中心化知识图谱构建勾画出基于区块链底层逻辑的技术架构。



其中,最核心的便是知识存储部分,这里我们核心介绍其中三大重要组件:


  • Storage,提供共享的可信存储,数据不可被随意篡改,数据不可被拒绝访问;

  • Incentive,为生态内多种贡献者角色提供激励,在保证各方追求自身利益最大化的同时,能合力共建高品质的知识图谱;

  • DAO,允许社区共参与系统参数治理,针对不同发展阶段进行动态调整。

1. Storage

EpiK 的 Storage 组件基于 IPFS 协议进行搭建。IPFS 是一种分布式网络传输协议,该协议将接入的计算机设备连接为同一个文件系统。提交给 IPFS 网络的文件,将被切分为多份,每份都拥有独立的 Hash 值,借助 Merkle Trie 数据结构,将切分出来的多份数据块组织连接到同一个根节点下,生成唯一的 File Root Hash,即为文件 Hash 值。多个文件的根也会被组织到一颗更大的 Merkle Trie 结构中,形成唯一的 Root Hash。这种结构有一个好处,即重复数据块不会被重复存储而且节点彼此之间仅需同步 Root Hash 即可保持对全局文件的一致性视角。每个节点可以自由选择保存哪些数据块,并告知其他节点自己存了哪些数据块,每个节点会把他们了解到的其他节点的存储情况记录在 DHT 中,方便在接受访问需求时,可以快速锁定哪些节点有对应的数据并向其索取。IPFS 成功地将诚实无私的节点连接起来,对外提供了一个统一的文件系统操作接口。但 IPFS 也有其现实中的问题:缺乏激励机制和防作弊机制,节点可能作恶而且可能随时下线,这些因素都导致仅靠 IPFS 来构建存储是不可靠的。


激励手段我们将在 3-2 中介绍,这里我们简要介绍节点潜在的作弊手法。举例来说,一份文件为了保证高可用性,会在网络中多个地方保存多份,如果现在有两名矿工都向网络广播他们存储了同一份文件,以此向整个系统索要两份存储奖励,但是这两名矿工可能实际分享着同一份物理存储,文件真实只存了一份,整个系统理应只支付一份存储奖励。这就是分布式系统里常见的女巫攻击。


为了防止女巫攻击,EpiK 在 Storage 组件中集成了由 FileCoin 提出的基于零知识证明的复制证明(PoRep,Proof-of-Replication)和  时空证明(PoSt,Proof-of-Spacetime)两种验证方法。其中,复制证明的作用是证明节点的确按照要求在本地完整存储了原始数据的全新副本;时空证明的作用是证明节点还在本地持续保存着原始数据的全新副本。复制证明的原理是,使用当前节点的全局唯一 ID 作为种子,然后通过计算密集型的加密算法对源文件完成密封,然后广播密封后数据的零知识证明,虽然密封过程复杂,但是其他节点可以轻松验证密封过程的正确性。时空证明的原理是,节点需要定期广播已存文件的一个随机零知识证明,这个证明如果从非密封的源文件开始生成将会及其耗时,可能导致节点无法按时完成证明的广播,如果其他节点没有及时收到该节点的时空证明广播,将会认为该节点已经丢失了这份文件。所以为了保障时空证明的及时性,节点不能丢弃已经密封好的文件数据。


有了存储系统和验证机制之后,我们还需要保证所有节点之前保持数据一致性,这就要求所有节点对于文件有哪些,是按照什么顺序广播给全网的都需要保持一致。这里就引入了区块链账本技术,所有新文件的创建及其创建顺序、节点存储文件的行为、节点提交存储证明的行为都被记录到一个全网共识的区块链账本上,每个节点都会同步完整账本已获得和全网一致的数据视角。有了文件内容和文件顺序之后,EpiK 便可以在 Storage 组件中存储知识图谱数据库操作日志文件,每个节点按顺序同步这些日志文件之后,便可以在本地恢复出全网一致的完整知识图谱数据库。


目前 EpiK 网络中已经有 9000+ 节点注册,5000+ 节点接入成功提供存储。EpiK 当前设置中,每一份文件会在网络里存储 3000 份,如果少于 3000 份,新存储的节点可以获得额外的激励,黑客要 DDoS 整个 EpiK 文件知识图谱数据库将会变得极其困难。而且全网同步同一账本信息,黑客只有控制全网超过 51%的节点才能篡改账本,攻击成本也会极其高昂。

2. Incentives

EpiK 将知识图谱贡献者分为 3 类,分别为数据矿工、领域专家和赏金猎人,另外还有一个使用者的角色,为数据网关。每天 EpiK 网络都会产出固定数量的积分奖励,如何将这些积分合理分配到这 3 类角色手上以激励他们为公共知识图谱数据库做贡献,以及如何设计合理的机制来回收积分,都在 Incentives 组件中定义。


数据矿工是物理设备提供者,通过提供存储和带宽资源来获得收益,每天产出积分的 75% 归属数据矿工群体。存储的数据越多,收益越高,提供的数据下载流量越大,收益越多。与此同时,为了预防数据矿工随意下线导致数据备份减少,系统安全性下降,所有数据矿工都需要抵押一部分积分才能成为数据矿工,通过提供存储和带宽资源获益。积分收益将通过区块链合约自动下发,无需经过任何中间人审核。


领域专家是知识图谱数据的贡献者和验收员,也是整个系统中唯一有权利上传知识图谱数据的群体,他们通过贡献高品质的知识图谱数据获得收益。每天产出积分的 9% 归属领域专家群体,贡献的数据越多,收益越高。但为了照顾不同领域数据规模的差异,不同领域专家贡献的数据大小会在取 log 后按比例获得奖励。当然,作为全系统唯一有数据上传权利的群体,对于领域专家有着严格的监督机制。首先,领域专家必须由已经是领域专家的人提名产生,提名后的领域专家还需要在社区中获得 10w 票的支持,每一票都以为着一个积分被锁定。一旦领域专家票数(锁仓积分数)少于 10 万票,则失去资格。如果领域专家上传虚假、垃圾数据,社区将给予除名处罚,提名了被除名领域专家的人也将受到连带惩罚。为了鼓励大家投票,每天产出积分的 1% 归属所有参与投票的用户,投票越多收益越高。


在将赏金猎人之前,我们先介绍数据网关。数据网关是用户获取最新第一手知识图谱数据的唯一途径,数据网关需要抵押积分来获得数据访问流量,比如抵押 1 积分可以获得每日 10MB 的数据访问流量。那么对于 EpiK 上知识图谱数据的需求越多,数据网关们抵押的积分就会越多,积分的需求会增加,贡献者们持有的积分就会越有价值。


有了数据网关抵押积分的概念,我们再来讲赏金猎人。赏金猎人是知识图谱数据的标注员和验证者,他们通过完成领域专家发布的任务来获得收益。赏金猎人的收益是随着数据网关抵押积分的多少来动态变化,如果数据网关抵押的积分越多,证明目前 EpiK 上知识图谱数据质量还不错,那我们会更多地激励数据矿工们提升带宽,让数据访问服务更加顺畅,于是每天产出积分的剩余 15% 会更多地分配给数据矿工群体;但如果数据网关抵押的积分不多,那说明 EpiK 上知识图谱数据质量还有待提升,那么我们会把剩余 15% 更多地分配给赏金猎人,让更多人工可以参与进来提升数据质量。


在整个生态中,每个角色都通过激励模型让自己利益实现最大化,数据矿工应该提供更多的存储,而且需要去督促领域专家优化知识图谱数据质量,从而赢得更多收益;领域专家则是不断提供更新更高质量的数据通过贡献来分得更高收益;赏金猎人则是完成更多的任务来获得更多收益,无形的手推动各方共建知识图谱。

3. 去中心化社区治理

一辆无人驾驶的汽车四处巡航,正在寻找乘客。乘客下车后,这辆车使用其利润去充电站充电,在其初始的编程设定外,不需外部的帮助就可以决定如何执行其任务。这是比特币核心协议开发者麦克·赫恩(Mike Hearn)描述的一个去中心化组织或者说 DAO 的理想用例,即依托智能合约,组织就可能实现无层级化管理的运作。DAO 是区块链发展过程中的一项重要延展,而 EpiK 铭识协议借鉴了这种组织形式,将它运用于去中心化知识图谱的构建中去。


EpiK 存在多个 DAO,有治理全局参数的 EpiK DAO,如修改各群体收益占比等参数等;有治理领域专家内部参数的 Experts DAO,如修改领域专家间积分分配算法等;有治理矿工内部参数的 Miners DAO,如修改每份文件的备份数量等。DAO 中的各级角色通过智能合约实现自己在组织中的功能,从而使得知识图谱构建这件事儿,被赋予了自动化的流程体系,大大提升了自身的专业性和效能,DAO 一旦运转起来将为全球超大知识图谱构建解放巨大的生产力。


依托三驾马车,EpiK 的知识图谱+区块链模式爆发出前所未有的活力,构建起开源知识共建共享共益平台。

谁可以参与这场开源知识运动

EpiK 开源知识运动让更多人看到了知识图谱未来对于 AI 的重要价值,同时也促使越来越多的人加入到 EpiK 共建共享共益的行动中来。事实上,EpiK 是一个底层的数据平台,不同身份的人都能参与到这个平台建设中来。那么什么样的人可以参与进来呢?


首先,各行业资深从业者可以报名参加成为该行业的领域专家,职责之一就是要确保数据的准确,同时也去把知识图谱数据标注任务合理地拆分、下发到平台上,让用户可以参与进来共同维护这些领域的知识图谱。


其次,EpiK 引入赏金猎人角色,帮助领域专家完成特定领域的任务。EpiK 赏金猎人只需完成简单的选择题,如回答 Yes or No ,每个回答的背后都会意味着一份知识图谱的逐步完善。完成任务之后,赏金猎人将按劳获得领域专家分配的奖励。按目前测算,不低于时薪 36 元。EpiK 希望可以调动更多的人,可以利用碎片化时间兼职参与进来,同时也能促进三四线城市的全新就业机会。


再次,可以选择做矿工,只需要提供相应的储存空间就可以成为数据矿工。在获得丰富奖励的同时,也是在为人类永恒知识库做出自己的一份贡献。


还有是数据变现,这里涉及两个方面:一方面是数据网关,随着链上数据的增多,参与人员可以通过为链上的数据做知识聚合,提供一些知识好用的访问服务以获得相应的补偿和收益;另一个层面就是对接应用方,可以帮助企业方省去高昂建数据库的成本。

说在最后

本文讲解了 EpiK 去中心化知识图谱开放协作平台的三重构建逻辑,在此基础上,EpiK 知识图谱库将成为人工智能未来发展的重要基石,为未来智能化应用落地提供重要的数据支撑推动数据价值的持续升级。

EpiK 开源知识运动正在开启一场 50 年由碳基生命向硅基生命的史诗级布道,一条通往 AI 未来大道正熠熠生辉。


本文转载自:DataFunTalk(ID:datafuntalk)

原文链接:去中心化知识图谱协作平台建设实践

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-01-18 13:001753

评论

发布
暂无评论
发现更多内容

云厂商是什么意思?2024年知名云厂商有哪些?

行云管家

云计算 云服务 行云管家 云厂商

App加固:不同类型和费用对比

LED透明显示屏前景发展怎么样?

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 市场 #研发

ps一键磨皮插件Delicious Retouch 5怎么安装 支持M芯片

南屿

磨皮插件 Photoshop 插件

云联接:揭开SD-WAN神秘面纱,颠覆你对网络的认知!

博文视点Broadview

微店获得微店商品详情 API(micro.item_get)在电商中的发展

技术冰糖葫芦

API

ScaleUp插件使用方法 附ScaleUp for Mac破解版资源

南屿

高级视频增强工具 ScaleUp插件下载 ScaleUp mac破解版 AE/PR插件

FCPX插件-动态视频运动模糊视觉特效 mMotion Blur 支持Intel和Apple M芯片

南屿

fcpx动态视频 运动模糊视觉特效 fcpx插件下载 fcpx特效

精彩推荐 |【Java技术专题】「重塑技术功底」攻破Java技术盲点之剖析动态代理的实现原理和开发指南(中)

洛神灬殇

Java 后端开发 JDK 动态代理 CGLIB 动态代理 2024年第十一篇文章

如何利用 APM 追踪完整的类函数调用

心有千千结

APM Datadog OpenTelemetry 系统可观测性 DDTrace

Sketch Measure for Mac中文破解版 sketch标注插件下载

南屿

Sketch Measure mac中文版 sketch标注插件

如何定位和优化程序CPU、内存等性能之巅

雪奈椰子

FCPX 插件无法使用?|Final Cut Pro X 插件不能使用出现叹号的解决办法

Rose

运行Adobe应用提示非正版This non-genuine Adobe app has been disabled soon如何解决

Rose

adobe

喜讯!矩阵起源子公司通过“国家高新技术企业”认定,引领数据库行业科技创新!

MatrixOrigin

数据库 分布式 云原生 MatrixOrigin MatrixOne

NFTScan | 01.08~01.14 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan

PS磨皮滤镜降噪插件Imagenomic Professional 支持ps2024 兼容M1

南屿

磨皮插件 ps滤镜下载 Imagenomic Imagenomic Professional

软件测试/测试开发/全日制/测试管理丨Android WebView 技术原理

测试人

软件测试

2024年的第一场 MatrixOne Meetup 来啦!

MatrixOrigin

数据库 分布式 云原生 MatrixOrigin MatrixOne

QCN9024: The future of wireless communications, five major advantages over competitors

wallysSK

堡垒机和数据库防水坝的区别一二

行云管家

数据库 网络安全 堡垒机 数据库防水坝

AE蓝宝石插件BorisFX Sapphire 2024 for Mac破解版 及新功能介绍

南屿

Lightroom预设资源-高级食物lr预设 附lr预设导入教程

南屿

高级食物lr预设 Lightroom预设下载 lr预设怎么导入

复杂经济时期下的企业财务规划战略

智达方通

全面预算 情景规划 企业财务规划 财务规划

数据采集在制造业中的应用场景

万界星空科技

数据采集 MES系统 设备管理 万界星空科技 生产管理

软件测试/测试开发/全日制/测试管理丨CSS Selector

测试人

软件测试

photoshop色轮插件Coolorus怎么安装 附Coolorus 许可证

南屿

Coolorus mac版 PS调色插件 Coolorus许可证 Coolorus安装教程

实用fcpx插件:Photo Montage(轻松制作照片动画)

南屿

fcpx fcpx插件

​万界星空科技MES系统如何进行产品的质量管理

万界星空科技

质量管理 MES系统 制造业 mes 制造业生产管理系统

eBPF运行时安全

统信软件

安全 ebpf 运行时

30款绚彩天空背景特效PS渐变-Photoshop天空渐变

南屿

ps渐变 天空背景特效 Photoshop素材

去中心化知识图谱协作平台建设实践_AI&大模型_DataFunTalk_InfoQ精选文章