【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点

  • 2015-12-18
  • 本文字数:4172 字

    阅读完需:约 14 分钟

腾讯旗下微信团队和香港科技大学于 11 月 30 日宣布成立联合实验室,WeChat-HKUST Joint Lab on Artificial Intelligence Technology,简称:WHAT Lab。该实验室将以人工智能为主要研究方向,旨在改善用户的生活服务体验,借助大数据拓展机器学习的边界。

背景:

微信是腾讯于 2011 年推出的一款手机社交媒体应用,与开放性的舆论平台不同,微信是一种封闭的社交平台。发布之后得到了迅猛的发展,到现在它拥有了 6.5 亿的活跃用户,创造了中国 IT 的又一个奇迹。

微信发展至今,在人工智能领域,在统计机器学习,自然语言处理,图像分析和语音识别方面有很多积累。其产品包括大家熟悉的语音转换文字,微信用户斑马分析系统、扫一扫功能(扫码、扫产品,书和电影广告,扫词翻译),摇音乐、摇电视以及“为盲人读书”等公益项目。在深度学习,基于统计学习的语音、文本理解和大数据挖掘方面都有专门的研究人员。

在中国的社交媒体应用上,微博是开放性的社交平台;与国外对应的是 Twitter。微信作为封闭式的社交平台,在国内马上有了赶超微博之势;微信在国外对应的是 Facebook。在人工智能的发展上,Twitter 于 2014 年和 2015 年分别收购了人工智能公司 Madbits 和 Whetlab,Facebook 早于 2013 年就和 NYU 成立了自己的人工智能实验室 FAIR。而和香港科技大学组成的人工智能联合实验室正是微信的有力出击。

WHAT Lab 联合实验室位于香港科技大学校园内,由香港科技大学计算机科学与工程系主任杨强教授负责。

杨强是美国电子电器工程师协会院士(IEEE fellow)、国际人工智能协会首个华人院士(AAAI Fellow),于 2012 年获华为邀请参与创办从事人工智能及大数据研究的诺亚方舟实验室。杨教授是多本国际期刊的编委,包括 IEEE 大数据期刊创始主编,他曾组织多个人工智能和数据挖掘的国际会议。

InfoQ 对成立 WHAT Lab 的事件,同时采访了香港科技大学的杨强教授和微信技术架构部模式识别中心总监陈波。

关于合作:

InfoQ:为什么选择香港科技大学?

香港科技大学在人工智能,机器人和大数据领域在世界上都是处于领先地位。香港科技大学的机器学习研究团队和学生曾经获得多项世界比赛冠军,包括 ACM KDDCUP 大赛的多次冠军,诺基亚大赛冠军,以及在 ImageNet 计算机视觉大赛上,与互联网公司合作的冠军。在迁移学习,统计机器翻译和深度语音学习领域也引领世界研究潮流。学校研究的情感机器人被“科学美国人”报道,大学出来的创新公司包括世界闻名的“大疆”公司。大学云集国际著名协会的院士,包括几十名 IEEE Fellow。杨强教授本人也是国际高等人工智能协会(AAAI)的首名华人院士,2015 年国际人工智能大会的主席,以及 IEEE“大数据”期刊的创始主编。

杨强教授在接受 SCMP 采访时提到:“我们的学生有很好的理论能力,善于建模,但是需要真实数据来训练和测试。”而微信提供的数据能让该实验室下的博士生们来验证他们的模型。“有了这么多的数据,我们就可以更好的建立一个理解人类语言,理解人类意图,更友好动人的系统”。

同时 InfoQ 的小编也询问了香港科技大学的人工智能团队开发出来的最有意思的模型是什么,杨强教授回答说:

我们香港科大的团队在迁移学习领域有很多有意思的模型。比如,我们把照片或画作和文本当作两个不同的领域,运用迁移学习的模型,利用文本的模型来帮助对照片分类。同时,我们也可以通过对照片或画作的分析,找到最贴切的文本,比如诗词,来搭配。这就像是古人的诗中有画,画中有诗的道理。

研究重点:

WHAT Lab 的研究的主要方向是:数据挖掘、机器人对话、机器视觉、语音识别。研究重点是:“在微信大数据下的人工智能相关技术的突破,使得互联网+实现更智能的+,使得微信的连接可以更深入和延伸。”

数据挖掘:

微信官方最新公布的活跃用户是 6.5 亿,在不涉及用户聊天等隐私的情况下,如此庞大的用户群仍然会在开放平台信息交互,线上线下互动等微信生态体系中产生大量数据,如何通过数据挖掘的手段科学的分析这些数据中所体现的信息与知识,并将其应用到微信生态体系中产生价值,促进应用方产生数据反馈来修正系统,形成一个良性的闭环是研究上需要持续关注的问题。

数据挖掘现在是大家耳熟能详的概念,前不久微信也宣传了自己的斑马系统,在数据挖掘方面微信主要关注哪些方面,有什么不一样的理解,微信回答说:

针对我们的业务,我们对以下五个方面比较关注:

首先是多源异质数据的联合建模。比如朋友圈中公开的文字和图片,甚至用户主动签到的地理位置信息都应该是一体的,这种 cross domain 的联合建模使得我们的挖掘结果更加精准;

其次是用户画像数据生命周期的管理。人的生活状态是会随着时间变化的,比如用户关注了婚庆公司的公众号,不代表 TA 永远处于新婚状态,数据挖掘系统需要能自动管理这种时间衰减,以及其他的基于时间依赖关系的数据更新逻辑;

第三是进行数据挖掘分析的时候如何尽可能的刻画因果关系。很多时候大家看到的数据分析结果感觉与预想的结论是一致的,只是数据量化了,但是究竟是什么样的隐性因素促成了这样的结果呢?这需要我们尽可能的开发高维,多样,精细挖掘工作,从蛛丝马迹中寻找这种隐性因素;

第四是超大规模的机器学习并行化计算平台。大家都知道数据挖掘中有一项技术是机器学习,在超大规模的数据面前要想充分发挥机器学习的威力,我们有时候需要建立更加复杂的模型来学习刻画数据的内在特质。这种超大规模数据和模型的并行化机器学习需要一个非常强大的并行化计算平台来支撑;

最后,如何实现线上线下的数据应用和融合。微信天然的具有线下应用的优势,如何把我们的数据挖掘模型,用户画像系统应用到现实生活中,联合线上线下建立时间和空间的关系,帮助进行更加科学的决策也是我们非常关心的。

对于微信,每一处的改进惠及的将是亿万的用户。

对数据进行有效的挖掘,意味着需要在保护用户隐私之间做最合适的权衡。对于微信用户来说最关心的问题始终是大数据下的用户信息隐私。InfoQ 询问了现在微信团队采取了哪些举措在保护用户的权益。

首先是保证隐私的数据不可以动。还有就是在用户同意的情况下,利用数据挖掘来帮助建立有利于用户的服务。比如,在“为盲胞读书”的活动中,用户的语音是在用户同意的基础上上传的。

机器人:

在人工智能领域,机器人是个热点,各大巨头都先后推出自己的问答机器人,如:Apple Siri、Google Now、Microsoft Cortana、Facebook M。同时微信也对外介绍了自己的智能机器人小微。微信机器人已经在客服系统上落地,比如微众银行、微信团队、腾讯游戏等背后的客服机器人都是来自于小微的技术。机器人旨在提高人类的生存质量和幸福指数,“让每个人都有自己的贴身小秘书”,杨强教授说。而微信具有这样的生态圈,有如此巨大的数据量和用户基础,机器人的发展肯定会越来越好,越用越智能,相信能取得意想不到的进展。

对于微信云端机器人服务功能的定位,微信回答说:

对话是天然的交互方式,而机器人正是对话交流最好的载体,同时机器人也应该是一个有情感、个性化、能为用户提供服务的实体。在这个方面,微信有着独特的优势:IM 平台、永久在线、大数据、用户画像、闭环服务等,通过人工智能机器人来连接人和服务,人和人。我们的机器人研究也着眼于这个想法,为千万服务号提供自动、实时、智能的服务,同时也希望有一天它能成为用户的贴心朋友,能为用户解决生活中的一些问题。

语音识别:

本着让世界更开放连通的宗旨,语言服务是社交软件的必经之路。

InfoQ 询问了目前微信自然语言处理或语音识别功能的研究里除了中英文是否还能支持分析其他小语种语言,如果不支持原因是什么。

目前微信语音识别支持中英粤三种语言,尚且不支持其他小语种。主要原因是数据采集以及小语种语音学专家知识的欠缺,不过目前一些端到端的方案为快速开发小语种引擎提供了可能,我们也正在研究。

微信未来的发展:

正如微信的产品定位,“微信,是一种生活方式”,在这个信息化的时代,社交网络越来越多的参与到了人们的生活中。社交网络用各种方式满足人们的需求。我们不得不思考什么样的技术变革能导致下一个微信级的产品出现,InfoQ 询问了未来的社交网络会是什么样的。

未来的社交网络应该不仅是人与人之间的交流,而且是人与服务间的交流。人与人之间的交流,只要把通道做好就行了。人与服务之间的交流需要服务提供方理解用户的意图,痛点,和需求。需要把行业知识转化为答案。这就需要知识的学习和管理,需要知识的迁移能力和对用户的推荐精度。这些都是人工智能的长项,也需要人工智能来实现。应该说,在社交网络上,通过大数据和人工智能,最有可能让每一个用户都拥有自己的贴心秘书。

最后 InfoQ 特地询问了杨强教授对人工智能领域的工作人员有没有什么指导性的建议。

人工智能机器学习今天的成就取决于几个条件的满足:首先,有优秀的算法,然后,有大数据,最后,有并行和分布式的高性能计算资源。这些条件在图像,语音,在线推荐都得到满足,因而在这些领域人工智能都有了长足的发展。

今后,我们可以预期有更多的领域会满足这样的条件,因而成为人工智能的下一个成功所在。社会网络的数据量和互联网+的强劲需求会使得移动社交平台成为人工智能成功的下一个热点。

采访嘉宾介绍:

杨强:香港科技大学计算机系主任,大学冠名讲座教授。他是国际人工智能协会(AAAI)的首个华人 Fellow 和 IEEE 等国际协会的 Fellow,ACM 杰出科学家。主要研究兴趣包括人工智能和数据挖掘,大数据,迁移学习与智能推荐。他指导的团队曾经赢得了 ACM KDDCUP,诺基亚移动大赛等国际数据挖掘大赛的冠军。他是国际人工智能协会(IJCAI) 的理事,中国人工智能协会常务理事,以及 2015 年国际人工智能大会(IJCAI 2015)的程序主席,系 ACM Transactions on Intelligent Systems and Technology 和 IEEE Transactions on Big Data 的创刊主编,清华大学出版社出版的《学术研究,你的成功之路》一书的共同作者。于 2012 年任华为诺亚方舟实验室创始主任,对企业界也有重要的影响。

杨强于 1978 年毕业于北京大学天体物理专业,于 1989 年在美国马里兰大学获得计算机博士学位。于 1989 至 2001 年在在加拿大滑铁卢大学和 Simon Fraser 大学任教。

陈波:微信技术架构部模式识别中心总监,清华大学硕士毕业,2008 年加入腾讯,2011 年开始负责微信人工智能相关的基础研究管理工作,团队涉及领域有语音识别、图像分析、对话系统、数据挖掘等。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2015-12-18 18:004802
用户头像
Tina InfoQ高级编辑

发布了 1248 篇内容, 共 832.9 次阅读, 收获喜欢 3530 次。

关注

评论

发布
暂无评论
发现更多内容

Photoshop 2021 for mac(PS2021破解版) 22.4.2中英双语版

mac

PhotoShop 苹果mac Windows软件下载 图像编辑软件 PS2021

DAPP区块链挖矿模式系统开发

l8l259l3365

蓝易云:Centos7系统wget 的安装与使用详细教程。

百度搜索:蓝易云

Linux centos 运维 云服务器, wget

PDF Merge PDF Splitter for Mac(PDF合并和拆分软件) v6.3.9永久激活版

mac

苹果mac Windows软件 PDF Merge PDF Splitter 拆分PDF文件工具

Xmind for Mac(思维导图软件) 23.08中文激活版

mac

windows XMind 思维导图软件 苹果mac

敏捷时代的架构

俞凡

架构 敏捷

2023-09-16:用go语言,给你一个整数 n 和一个在范围 [0, n - 1] 以内的整数 p , 它们表示一个长度为 n 且下标从 0 开始的数组 arr , 数组中除了下标为 p 处是 1

福大大架构师每日一题

福大大架构师每日一题

金九银十!GitHub星标137k霸榜,国外友人直呼太卷了!

程序员万金游

Java 面试 #java #程序员 #Java面试题 #Mysql

Python 基本操作

小万哥

Python 程序员 软件 后端 开发

HTTP静态、动态住宅ip代理和数据中心代理是什么?有什么区别?

巨量HTTP

代理IP http代理

文心一言 VS 讯飞星火 VS chatgpt (94)-- 算法导论9.2 3题

福大大架构师每日一题

福大大架构师每日一题

C++的异常类型与多级catch匹配

二哈侠

使用VirtualBox新建虚拟机CentOS

衣谷

centos virtualbox

秒合约交易系统_虚拟数字币合约交易系统开发

V\TG【ch3nguang】

ARTS打卡第5周

苏籍

Programming abstractions in C阅读笔记:p161-p165

codists

适合自身业务的HTTP代理有哪些因素决定?

巨量HTTP

代理IP http代理

架构实战营-模块二作业

王朝阳

#架构训练营

DoorDash基于eBPF的监控实践

俞凡

云原生 ebpf 大厂实践 DoorDash

DAPP系统开发模式(源码对接)

V\TG【ch3nguang】

C++中的 throw详解

二哈侠

蓝易云:Linux系统如何查看服务器带宽及网络使用情况?

百度搜索:蓝易云

云计算 Linux 运维 云服务器

分区副本重分配源码原理分析(附配套教学视频)

石臻臻的杂货铺

kafka

ARTS 打卡第 5 周

AI帅辉

ARTS 打卡计划 学习分享

IntelliJ IDEA 2023 for Mac(Java开发工具) v2023.2.2永久激活版

mac

java开发工具 IntelliJ IDEA 2023 苹果mac Windows软件

如何过好一生?全情投入地生活

少油少糖八分饱

生活 情绪控制 享受状态 冥想 热爱

我在超化研究上的日志采集架构设计

软件工程师-罗小东

专访微信人工智能实验室: 社交网络已成为人工智能的一个热点_语言 & 开发_Tina_InfoQ精选文章