东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举

  • 2019-11-07
  • 本文字数:1497 字

    阅读完需:约 5 分钟

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举

10 月 31 日,由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕,会期两天。智源大会是北京创建全球人工智能学术和创新最优生态的标志性学术活动,定位于“内行的 AI 盛会”。

为推动行业数据开放共享,支撑人工智能基础研究与关键技术研发,大会现场,北京智源人工智能研究院宣布成立数据开放研究中心。该中心旨在制定数据开放标准,研究数据开放核心技术,搭建数据开放共享平台。智源研究院学术副院长唐杰担任数据开放研究中心主任。此次大会上,北京市科委主任许强、智源研究院院长黄铁军和数据开放研究中心主任唐杰共同为研究中心揭牌。

大会现场,数据开放研究中心主任唐杰接受了 InfoQ 等少数媒体的采访,唐杰就数据开放研究中心的情况做了详细介绍,并就数据安全、AI 发展现状等热门话题发表了自己的看法。

推动数据开放共享

据唐杰介绍,数据开放研究中心大概从今年 6、7 月份开始策划,“最早北京人工智能研究院主要想做几件事:第一是智源学者;第二是联合实验室,第三是社区,总的来讲,我们是希望智源成为一个平台性的组织,上面有学者、联合实验室、有各种社区。”


在实际推进过程中,联合实验室推进较慢,因为像这样重量级的项目一般都需要经过多次论证,到现在,智源才论证成立了京东、旷视两个联合实验室,未来这十个联合实验室仍需要很长时间建设,即便在并行操作的情况下。


因此,智源的专家们就在思考:是否能够打造一个数据平台?在这个数据平台上能够支持更加广泛的、容易的、轻量级的共享,且能在上面建立出面向学者和企业级的任务型竞赛。这样就可以加快迭代,否则依托这种联合实验室来做相对比较慢,而且联合实验室一发布出来后,有些公司还会有顾虑比如对竞争对手的考量。这是数据开放共享研究中心设立的原因之一。


唐杰表示,另外一个很重要的原因是,如何做数据脱敏、数据隐私、如何让数据更安全是数据开放中非常重要的研究内容。


据 InfoQ 了解,数据开放研究中心的具体工作内容包括以下几个方面:


开放标准:制定数据开放和共享系列标准,包括人工智能数据开放许可协议、人工智能数据资源开放管理规范等。


关键技术:研究隐私数据泄露风险模型;按照数据使用场景,研究相应的数据开放技术。


开放数据集:创建行业关键数据集,通过自动抓取、标注、与外部单位合作等方式,构建一批高质量的数据集。


共享平台:搭建数据开放共享平台,提供数据开放与共享服务,推动人工智能行业发展。


谈到数据安全、隐私问题,唐杰表示,从研究的角度讲,数据脱敏、数字隐私保护是一个“矛和盾”、“盾和矛”的问题,因为你在这里想办法怎么将数据保护起来,但总会有人想办法攻击进来,这两个方面是不停的在发展,可能有的阶段是“道高一尺”,有的阶段是“魔高一丈”。


目前解决的办法主要有几种,一种是加密共享技术,可以将数据用私钥加密后再进行共享,接下来在加密数据上构建模型。一种是联邦学习,联邦学习并不分享数据,而是分享模型,在在模型层面上做共享,这个时候数据没有开放出来。


采访中,唐杰表示,近期 AI 技术在逐渐朝着实用性发展,如时下热度颇高的安防、交通、医疗等都是 AI 非常重要的应用领域。


谈到现在比较火的自动驾驶,唐杰对其发展前景表示乐观,“我认为在未来有限的时间里是可以实现的“。他表示,自动驾驶技术发展越来越快,几乎每年都有很大的变化,在国内的特定领域,自动驾驶已经成型。未来随着技术的发展,它是一定可以实现的,但这个实现需要政府、民众等各方的努力,此外,有必要花一些时间消除人们对于自动驾驶的恐惧,很多人认为自动驾驶危险性很高,其实无人驾驶可能人驾驶还更安全一些。“我个人乐观估计,希望能够在未来六到九年实现,希望我的预言成真”。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-11-07 08:001319
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.5 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制

阿里巴巴云原生

阿里云 云原生 Koordinator

云原生网关哪家强:Sealos 网关血泪史

阿里巴巴云原生

阿里云 云原生 Sealos

CentOS7下通过sshfs挂载sftp资源教程

百度搜索:蓝易云

centos 运维 云服务器 sftp sshfs

DRM音频格式转换好帮手-NoteBurner iTunes DRM Audio Converter 兼容M1和macos14系统

Rose

DRM 音频转换器

CDP技术系列(二):ClickHouse+Bitmap实现海量数据标签及群体组合计算

京东科技开发者

写作,写作,先写后作

zhumingwu

百万并发!API 网关抗住了亚运会流量高峰

阿里巴巴云原生

阿里云 云原生

10分钟白嫖一套监控系统

Yestodorrow

可观测性 用户体验 网站监控 # 监控系统

提高Nginx网络吞吐量之buffers优化教程

百度搜索:蓝易云

nginx 云计算 运维 云服务器 buffers

数值计算: 精度、溢出、舍入

西格玛

如何从 Jira 成功迁移到极狐GitLab,看这个就够了!

极狐GitLab

左耳听风 - 分布式架构「读书打卡 day 14」

Java 工程师蔡姬

读书笔记 程序员 个人成长 分布式 职业发展

钉钉飞书的AI大战,一场繁花还是一地鸡毛?

脑极体

AI

听GPT 讲Rust源代码--compiler(28)

fliter

期待已久!阿里云容器服务 ACK AI 助手正式上线

阿里巴巴云原生

阿里云 容器 云原生

Apache Dubbo 下一代云原生微服务挑战赛启动报名!五大赛题 50 万奖金池

阿里巴巴云原生

Apache 阿里云 云原生 dubbo

应用监控 eBPF 版:实现高效协议解析的技术探索

阿里巴巴云原生

阿里云 云原生 可观测

阿里云 SAE 2.0 正式商用丨云原生 2023 年 12 月产品技术动态

阿里巴巴云原生

阿里云 云原生

uniapp+unicloud开发一个网页端,小程序端,APP端,桌面端的博客CMS系统——万能的三三

万能的三三

JavaScript 小程序 uni-app CMS 博客

2024-01-24:用go语言,已知一个n*n的01矩阵, 只能通过通过行交换、或者列交换的方式调整矩阵, 判断这个矩阵的对角线是否能全为1,如果能返回true,不能返回false。 我们升级一下:

福大大架构师每日一题

福大大架构师每日一题

C# Break 和 Continue 语句以及数组详解

小万哥

C# 程序人生 编程语言 软件工程 后端开发

《Java核心编程》PDF

程序员李木子

Live Home 3D Pro for Mac(苹果电脑3D室内家居设计软件)

Rose

Mac软件 Live Home 3D Pro 家居设计软件 Live Home 室内设计

什么是网络地址转换协议

郑州埃文科技

《凤凰架构:构建可靠的大型分布式系统》PDF

程序员李木子

使用navicat误删mongodb数据库 能够找回吗?

百度搜索:蓝易云

mongodb Linux 运维 云服务器 navicat

CDP技术系列(一):使用bitmap存储数十亿用户ID的标签或群体

京东科技开发者

左耳听风 - 时间管理「读书打卡 day 15」

Java 工程师蔡姬

读书笔记 程序员 个人成长 时间管理 职业发展

Kube Queue:Kubernetes 任务排队的利器

阿里巴巴云原生

阿里云 Kubernetes Kuber 云原生

Programming Abstractions in C阅读笔记:p248-p253

codists

mac系统u盘启动盘制作教程,更新至macOS Sonoma 14

Rose

mac系统

智源研究院学术副院长唐杰:数据在开放共享的同时,隐私保护机制也要并举_AI&大模型_刘燕_InfoQ精选文章