【AICon】开辟产业应用新天地,大模型重塑各行各业,精华内容上线58%!>>> 了解详情
写点什么

清华大学国家金融研究院院长朱民:数据资产的时代|智源大会

  • 2021-06-01
  • 本文字数:7224 字

    阅读完需:约 24 分钟

清华大学国家金融研究院院长朱民:数据资产的时代|智源大会

2021 年 6 月 1 日,由北京智源人工智能研究院主办的2021 北京智源大会在中关村国家自主创新示范区会议中心开幕,会期三天。智源大会是北京创建全球人工智能学术和创新最优生态的标志性学术活动,本文为 InfoQ 记者带来的现场报道。


以下内容根据朱民的演讲速记进行整理,未经本人确认。


大家上午好!我今天想给大家汇报的议题是数据资产的时代,在今天,数据尤为重要。数据怎么样从资源走向资产是更为重要的问题。这个问题涉及科学,也涉及经济学,也涉及到整个市场,是几个不同的维度。


在今天,数据源源不断产生的时候,让数据运作出来的关键步骤就是让数据资产化。我今天想和大家汇报一下我观察到的数据资产时代的到来,面临的一系列挑战以及我们怎么样往前走。

智能时代,数据先行


我们正在离开信息时代走向智能时代,信息可以在任何地点、任何时间没有成本的获取,我们在过去十年经历了这一切。在信息时代有一个很重要的特点:信息无处不在。但是,决策的是人,而数据让我们应接不暇。这个时候,很多科学家做软件、程序、工具、算法的,变得非常重要。


这是应用先行的时代,但是在这个信息走向智能的时代,信息产生规模是如此之快,速度是如此之快,并且这个信息正在被计算机使用的频率不断的增长。信息是数据,数据让机器能够智能化。现在的应用是以数据为起点的,使智能化的系统能处理更多的数据。在智能时代,数据先行,数据是根本的第一个出发点,理解这一点很重要。


智能时代是以数据为基础的出发点的科技和社会过程。我们传统的人类智能是从观察走向科学,用试验走向技术、走向产品,但是在智能时代是数据直接通过人工智能走向知识,知识走向产品,整个生产过程短了很多,效率高了很多。同时,产生产品以后,在运行的过程中产生更多的数据以及数据的迭代来优化起点的数据,就完成了正循环。


我们从观察试验、归纳总结的科研个体的行为或者一个小群体的行为,开始走向一个全国社会的广泛的,无限制的数据和智能行为,这是第一次找到和人的认知平行的机器认知,这是人工智能。


我们现在讨论很多人工智能是不是一种局限,我觉得人工智能和人为智能开始平行发展,从而扩大了知识的绝对空间。在观察和归纳走不到的地方,机器可以自己发现无数以前因为认知的原因看不到的科技发展空间。这个在最近十年的科技,特别是在空间宇宙方面得到了很好的证明。所以,数据变成了基础,而数据和知识成为了一体两面,数据流通就是知识流通,这是一个很大的变化。


同时,当这个概念变的时候,我们看到前世界数据的规模迅速的扩大。IDC 公司报告预测,2025 年全球数据达到 175 个 ZB,其中 90 个 ZB,一半左右是来自物联网设备。8%的数据是非结构化的,交互用户从 50 亿涨到 60 亿。如果从中美比较的话,我们可以看到,2018 年中国还是 2.76ZB,比美国少,但是到 2025 年,中国有 48.6 个 ZB,大概是美国数据的 1.5 倍。中国毫无疑问是数据大国,中国今天是数据大国,明天是更大的数据大国。在这个场景下,数据是一切的起点,让数据运作起来就变的特别重要。


在整个数据的运行中产生的经济规模,麦肯锡做的分析表明,2005 年到 2014 年期间,增长了全球 GDP 的 3 个百分点左右,通过贸易、数据、移民、直接投资等等,所有一切都是和数据连在一起的,它对 GDP 的贡献很大。最新数据表明,欧盟 8%的 GDP 从个人数据中产生。数据不但是科学也是一个起点,产生财富。所以,数据特别重要的。

从资源到资产,数据资产化具备经济学和社会意义


当我们看到了数据的重要性和意义,我们面临一系列的挑战,就和数据一系列的特征相关。数据的基本特征就是质量参差不齐,搜集数据的单位不一样,目的不一样,标准化不一样,非结构化,非标准化,互相隔离。但是数据也有一些很好的独特的经济学特征,是虚拟的,零转移成本,重复使用,有高昂的固定成本,但是复制成本几乎为零,而且是非竞争型的,非排他型的,可以共享的。这给我们开拓了一个从经济学意义上的很大的想像空间。


数据的外部依赖性、时效性、应用场景、应用算法和网络效应都会决定数据的结构数据的存量和价值。本身数据没有价值,只有在使用的时候才有价值,这在给我们考虑数据怎么资产化一个很重要的要素,但是数据有一系列非金融学的维度,这是我们面临很大的挑战。隐私是很大的事情,合规是很大的事情,保密是很大的事情,安全,这些非经济学的维度要解决还是挺难的,这个就需要我们整个社会治理来解决这个问题。


所以这个核心的概念,就是把数据从资源转成资产。数据资产这个概念已经说了近 50 年了,我们回顾一下历史的话,皮特斯从 70 年提出了数据资产,但是他的资产主要是政府债券等。数据资产从 70 年代信息资源,到 90 年代出现数据资源,在过去的几年里,由于大数据技术兴起,随着数字经济的发展,人们越来越意识到数据不但是一个资源,他是个资产。


这个想法越来越明确,只有把数据从资源变成资产,我们整个的智能社会才能得以运转。智能社会的出发点和起点是数据,而数据如果不是资产的话,他没有办法承担重大的责任和经济功能。


这个概念在不断形成。数据资产有一系列的特征,可以在交易中,资源丰富,更新频繁,品种多样,有有限的排他性和非竞争性,有准公共物品的特征,有外部性,有自然增值,因为数据在不断的产生原始和衍生的数据,所以它不断的产生新的价值;有多维性,数据从产生开始就是信息多方面满足人类生存和发展的客观属性;有不同的维度;有无限的共享性,使得这个资产的性质非常友好,开创了无限的想像空间。


数据最后的一个特点特别重要,就是集合使用的价值更高。因为大数据、算法和科技的要求,数据要有足够的规模,足够的维度和足够的密度。所以,要支撑这 3 个基本概念数据必须资产化。

数据资产化仍面临多重挑战


现在面临最大的挑战,数据的产权是模糊的。我们复制很多,随采集随拥有,但是会触犯隐私权、数据泄露等,关键是产权不清楚。消费者在网上购物,消费者支付是银行,网上是平台,购物是商家,数据在那么多地方流通,谁是数据的最后拥有者,这是很值得讨论的法律问题。


第二个是影视和安全问题很突出。在技术管理层面,企业层面,在整个安全社会,还有一个问题是数据的定价和估值很困难。非竞争性无限共享意味着它的潜在价值很大,是长尾的价值链。比如我们在网上购物那么多参与者,个人、银行、平台、商家等等,在这里大家对数据的贡献是什么,在数据的价值里得到的是什么,数据的价值具有很大的不确定性。因为它是很长的过程,它是被不断的重复使用,这个重复使用现在一下子看不到,需要一个完全新的定价机制,这是动态的时间序列的,未来展望型的动态的定价机制。


数据的开放和流通也是很大的一件事,安全和隐私所有权的问题,数据不流就是孤岛,孤岛不能达到数据的集聚和密度,效率就大打折扣,这是我们看到数据最根本的基本挑战。


第一,技术挑战,技术挑战已经出现在一系列隐私安全问题,多方安全计算,MPC 是相对比较成熟的,采用秘密分享的方式,给数字计算,联邦学习是用的最普通的方法。让很多互相不信任的数据,不被共享数据的基础上严格进行模型训练,这个用的很多。安全沙箱用的很多,通过硬件建立一个可信任的第三方,让数据的使用者来共享。隐私计算走得很快,讲到底是建立一个互信,同时保护隐私得到共享的目的,在这个过程中用技术建立互信,这个发展的很快,往前走还是有挑战。


第二,交易,数据价值所有权是一个很大的事情,现在还很难定,数据交易要把所有权、使用权、经营权和分配权隔离,在中国有经验的,我们土地就是这样,我们土地承包就是把土地的所有权,使用权、经营权和分配权,一步一步走到今天,最后产生重大的经济效应和社会效应。


在今天的法律下数字所有权是模糊的,因为数据的非经济学特征决定了所有权不易交易,但是因为他可复用,所有权也没有必要交易,从这个意义上说,我们现在在逐步的探讨,把所有权,使用权、经营权和分配权隔离,能够在分离的意义上抽出使用权的归属,经营权的归属,分配权归属清晰,建立一个生态,这个事情就往前挪了一大步。


此外就是数字资产的金融化。数据的清洗成本很高,各位科学家做数据拆分清洗注标成本很高,数据对价格内在的定义是很不一样的,这又是一件很大的事情。这个成本很大,需求方的内在价格,从经济学上来说,这个概念不一样,数据的价值是长期的,几乎是无限存在的长尾,因为他可以被不断的反复使用,不断的加集成更多的数据,不断的被密集使用,它的价值才会不断的增大,这是一个动态的发展过程。


所以,数据资产的估值,起点是高成本,终点是长期回报。数据资产的估值需要在经济和金融上进行探讨,我们用成本法来说比较难,大概要用收益法,用不断的增收,收益包括权金节约,超额收益,增量收益,所有者、经营者、持有者、分配者都在其中得到了公平的分享的线。一个权重,有点像合作的股权公司,大家把这个数据投进来,共享这个数据未来的收益,这个未来收益是个长期的过程。这里有很多方式,经济学上有一个理论是讨论像这一类的资产定价和分配原则,值得探讨。


商业上面,数据资产又面临很大的挑战,他是一个数据平台的交易模式,还是一个数据银行的模式,还是数据信托的模式,我们现在初步商业模式看到比较多的是数据平台的交易,有一个平台,把各种数据拢来,经过计算这个数据可以得到应用,达到商业价值。


数据资产与货币资产本质上有很多共通点,能不能有一个像银行一样的机构,数据银行,等于把数据存在里面,逐渐的产生收益,然后银行可以把收进来的数据加工生产,变成产品服务大家,这是在规模上,在性质上,它是把数据存在银行的概念。但是最新的概念,数据信托,数据的所有权不变,我只是放在信托的池子里,我们也称之为数据公社,我们都是数据的所有者,我们与数据的所有者加入数据公社。


信托的商业运营者是个代理人,通过技术把数据理干净可以用,产生收益,最终回到信托者,数据的所有者,这几种模式在市场上我们看到的还是平台交易的模式比较多,理念上走在前面的是信托模式,可以比较好的把所有权使用权经营权分配权分开,所以商业模式有很多地方是需要探讨的。


从宏观的高度,从市场的角度来说,这种模式会形成一个数据资产三位一体构架的生态,包括资产本身的生态,消费者、生产者、要素市场、中介,一个计算者的生态,平台技术里面,最后是数据安全共享,托管、溯源、标签,在这个后面是一系列不同的数据,重新归类分类,这就是成为一个数据社会的基本的几个方面都在里面,所谓利益共同者的结构框架。


从这个意义上来说,数据从资源走向资产,需要构建安全可交易有效率的数据资产生态,这个生态必须有科技,因为要安全计算,必须要有市场,有激励机制,必须有政府,有监管和法律框架,必须有国际社会,因为数据是要在国际交流的,一定会有全球治理的问题。现在全球关于这个问题的讨论也是很多的,全球在数据治理上的讨论,对构建我们中国的数据资产生态也有启迪。

数据资产化的全球治理


全球数据监管的框架,国内还是鼓励公共数据共享和开放,B2G、B2C 等等,欧盟 2020 年的数据法案,就提出了数据利他主义,希望数据可以多次公共使用,中国 2020 年数据安全法律草案规定了政府数据安全开放,政府统一规范互联互通的安全可控的政府数据开放平台,国内都是鼓励开放,但是在国际上现在担忧还是比较大,国际数据处于安全的顾虑,国家间的法律差别很大。


所以数据在国际间的跨境流动现在还不是那么容易,但是这里有几个基本原则,比如 APEC 跨境隐私的规则只要 CBPR 几个基本原则,对于我们思考未来的数据生态还是有界限的。


第一,防止损害原则,从科技开始,向善的科技。通知原则,信息披露,搜集限制的原则,个人信息使用的原则,选择保持个人信息完整的原则,不管怎么用,原始信息是完整的,安全,不让访问,不让更正,而且有责任,谁做事谁负责,机构需要隐私的执法机构,这是 APEC 的执法机构,需要一个问责的代理机构,必须有问责制,有各种各样的企业,做平台、数据、运营等等,也就是市场,在这个市场必须面临隐私执法机构的法律监管和问责的机构。


这个基本框架还是很有借鉴意义的,对整个生态的构建提出了模式,但是国际模式也不一样,欧洲的模式是数据安全优先,美国的模式是商业利益优先,日本基本上是把欧洲的模式和美国的模式放在一起。美国讲商业利益优先的时候,协作合作形态,有一个“长臂管辖”,是说商业利益优先归我管,是很霸道的方式。美国在这方面制订了出口的方案,放在贸易方面,贸易是支持数据国际流通的重要载体。


我们可以看到数据流通监管在国际上,在贸易的框架下逐渐的在丰富,在多边双边贸易谈判中引入数据跨境自由流动的条款,贸易框架规定了数据贸易的议题,包括跨境数据流动,数据贸易规则,数据自己,能力的保障等等,CPTPP、EPA 等等,超大型的自由贸易协定,也包括电子商务等等条款。


第二,弹性化多边隐私和数据保护监管合作的模式,APEC 隐私框架是亚太地区第一个数据保护协同框架,构建了一整套的执行机制和措施。


第三,通过国际组织为成员国达成数据保护的共识和提供指导,这是上面最强,由上自下变的比较弱。


为什么讨论贸易,其实国际的框架也是在逐渐朝一个方向走,朝生态的方向走,而贸易是数据的流通,也是一个交易,这个贸易的法则也在一定意义上反映了数据流通和交易以及内在和本质的问题,所以理解当前国际上的法律贸易的治理与机制,对我们构想未来的框架是很有意义的。


全球数据流动监管政策发展的趋势。第一,跨境数据流动与数字服务贸易呈现有限特征,本地化一直是存在的,但是对于涉及国家利益安全的数据采取灵活化的对策,分级监管,同时也在放松,但是长臂管辖的博弈,现在比较复杂,有加剧化的趋势,国际化也是在这个框架正在初步形成,但是这个框架的运作还是有很多的博弈,这个国际的框架我之所以要讨论一些国际问题,也是从这些国际的概念看看国内。

中国经济的根本转型:从资源型经济转向数字经济


中国已经走向了数字经济,数据变的越来越重要,中国经济的驱动力,疫情以前,我们主要的驱动力是资源,是土地,石油和电力,是房地产和能源,是传统基建,建筑业、机械设备、交通运输,现在正在走向数字经济,是数据算法和算力,在走向新基建,新基建是支持数字经济最主要的部分。


中国经济在经历根本的转型,从资源型经济转向数字经济,在这个过程里,我们也可以看到共享经济模式正在走向无接触模式,无接触模式经过疫情,在数字经济下进一步得到发展和展现,这个无接触是越来越多的使互联网,而在无接触的情况下数据源源不断的产生,整个全球价值链我们也正在走向自己独立自主的核心科技赶超和前沿科技创新,原始创新走在很前面。


现在看的很清楚,当我们走向数据驱动的新经济,数字经济的时候,走向无接触经济,走向独立创新的时候,数据都在里面起着最为关键的基础和第一步,因为很明显,数据是科研的第一推动力。我们看到 2019 年中国人均流量是 9 个 GB,OECD 国家 6 个 GB,十年以后,30 年中国人均达到 100 个 GB,OECD 国家是 50 个 GB。


我们现在的新基建 5G 是物联网,未来是物联网的时代,物联网是智能时代很重要的方面,我们今天是十亿级的,十年以后我们会走到一百亿级,翻十倍,OECD 国家是 50 亿级,我们是他们的两倍。中国毫无疑问是数据的世界大国,数据的产生会越来越多,剩下是怎么用这个数据,从跨境数据来看,很有意思。


今天跨境数据主要是非娱乐图像和娱乐类,但是这是 2015 年和 2025 年比较,以后就变成生产力类的数据越来越重要。我们可以看到,整个物联网的数据会变的越来越重要,人产生的数据还是有限的,因为人还得休息,人的活动有限,机器产生的数据是无限的。我们现在正在打造的就是 5G 和云的基础的物联网,这是我们中国的战略目标。我也是工信部的执行委员,工信部从 2015 年开始考虑工业物联网的工作,步步推进,2020 年是个大年,我们在改良过的 IPV6 的节点已经超过美国,世界第一。


中国数据产生越来越多,数据资产化就变成特别核心的一个点,在这个过程中,政府起着特别重要的作用,C 端是多能端的价值真空,过于分散,产前复杂,个人意识比较弱,在企业端,超大的企业有马太效应,商业化驱动信息的茧房,政府就在个人信息使用边界体验数据的开放,政府数据的开放,在这个阶段上,政府起到一个非常重要的作用来支持数据从资源走向资产,打通这个通道,让数据动起来。


中国要走在世界的前沿,必须要抓紧构建生态,这个生态的第一步是发展计算技术的内生安全性和向善性。我们现在有的隐私计算,科学家认为很好,但是核心是内生安全性和向善性,可信性,是为了整个人类向善的方向服务,这个很重要。


技术是向善的,所有权使用权经营权分配权的分离,平衡保护隐私共享使用数据不动,有市场激励机制和分配函数,有法律框架和监管,政府明确他的作用和地位,中国参与全球数据的资产治理、法律、流动、交易,构建生态特别重要。中国是数据大国,中国走向数字经济,数据资产化是特别重要的一步,这是当前整个宏观任务里特别重要的一个挑战,也是特别具有重大历史意义的一件大事,这个我们都需要动起来。

小结

我们要让数据成为创造力,生产力,竞争力和财富,世界正在离开信息时代进入智能时代,数据、算力和算法都在加速发展,整个物理世界和经济社会生活都在被数字化,在被而且可以被几乎完整数字化,我们要理解和相信这一点,在这个意义上数字资产化是下一个颠覆世界和推动时代发展的里程碑,这是一个时代。


中国已经是世界的数据大国,推动数据资产化对中国的科技发展,因为它是科技的起点,经济增长和社会发展意义重大,因为他变成了智能社会,是所有历史的起点,所以迎接挑战,继续改革开放,全国推动数据资产化,助力中国走向高收入发展阶段,改变中国经济发展的历史轨迹,这是一个特别重要的任务和转折点。


我今天在考虑这个题目的时候,第一个是数据资产,我想这是数据资产的世界还是数据资产的时代,我们正在进入一个新的时代,这是数据资产的时代。因为这是一个数据在根本上改变和重塑我们的科技、生产,我们的社会我们的财富,所以这是一个时代的变化。


这就是我今天想给大家汇报的我的观察,谢谢大家!

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-06-01 14:291214

评论

发布
暂无评论
发现更多内容

运维五一不加班,从一套On-Call响应机制开始!

睿象云

运维 告警 智能运维 告警设置 告警管理

如何快速制作短视频?拥有这个神器,轻松搞定!

奈奈的杂社

短视频 视频剪辑 自媒体

如何在苹果M1上安装使用FL Studio

奈奈的杂社

编曲 教程分享 编曲软件

【HDC.Cloud 2021】边云协同,打通AI最后一公里

华为云原生团队

人工智能 开源 云原生 边缘计算 华为云

关于安卓设备声音远程传输的解决方案

行者AI

云平台

从狗狗币说起 看区块链的未来发展方向

CECBC

狗狗币

智能会话机器人:SaaS 平台的设计与思考

极客志

自然语言处理 chatbot 聊天机器人 智能会话机器人

模块2作业 微信朋友圈高性能复杂度

TH

架构实战营

全新 Jira 系列,适用于所有团队!

Atlassian

DevOps 敏捷 Atlassian Jira

Jmeter下载与mysql简单操作

InfoQ_Springup

工具软件

STM32低功耗模式下GPIO如何配置最节能?

不脱发的程序猿

嵌入式 stm32 单片机 低功耗模式

模块2学习总结

TH

架构实战营

腾讯T6!万字长文体系化讲解Spring源码,码农:太透彻了,学会了

牛哄哄的java大师

Java

打破思维定式(三)

Changing Lin

Tars Java 客户端源码分析

vivo互联网技术

Java TARS RPC架构

架构实战模块三作业

Geek_649372

架构实战营

“服务可达的数据链DNA” ,打通从代码到用户的“任督二脉”

博睿数据

数据链DNA

纯干货!看了10多篇Thread详解,只有阿里P7大佬的这份才是王者

牛哄哄的java大师

Java Thread

Offer收割机!阿里P7大神甩出JSP实战笔记,网友:信息量过大

飞飞JAva

Java

Hive解析Json数组超全讲解

五分钟学大数据

hive 5月日更

超详细教程:SpringBoot整合MybatisPlus

华为云开发者联盟

Java spring springboot 代码 MyBatisPlus

为何“低代码”频频引发业界热议?

优秀

低代码

看完阿里P7技术大牛的JVM知识点总结,竟帮我斩获了3份大厂Offer

飞飞JAva

Java JVM

爬虫实战教程:采集微信公众号文章

前嗅大数据

大数据 爬虫 数据采集 爬虫教程

“红黑树”详解丨红黑树的应用场景

Linux服务器开发

后端 红黑树 Linux服务器开发 Linux内核 红黑树应用场景

马丁格尔策略交易软件源码,量化策略系统开发

现代电信企业:极低延迟与复杂决策如何兼得?

VoltDB

数据分析 5G 数据平台 低延迟

如何快速排查发现redis的bigkey?4种方案一次性给到你!

观测云

redis 云计算 云服务

nmon和nmon analyser的网盘下载安装与使用

InfoQ_Springup

工具

一周信创舆情观察(4.26~5.5)

统小信uos

架构实战营 模块三作业

netspecial

架构实战营

清华大学国家金融研究院院长朱民:数据资产的时代|智源大会_AI&大模型_InfoQ编辑部_InfoQ精选文章