人工智能在文本、视频、语音、音乐等领域的最新发展和应用-InfoQ



 写点什么

在AICon北京2018大会上，马维英讲师做了《人工智能在文本、视频、语音、音乐等领域的最新发展和应用》主题演讲，主要内容如下。

演讲简介：

字节跳动公司的使命是建立新一代全球信息平台，从内容创作、分发、互动和交流的每一个环节，用人工智能技术赋能，提升用户体验，促进人类信息与知识交流的效率与深度。例如，通过计算机视觉、自然语言理解和生成技术开发的自动写稿机器人，能够自动理解体育视频并产生新闻播报。通过人工智能辅助内容审核，能够处理每天海量用户生成的各种内容。通过计算机视觉技术在手机端的应用，包括人脸检测和关键点定位、通用物体检测和识别，图像分类、分割、智能化美颜美妆、人体姿态估计、手势识别、手指关节点定位、SLAM 等，抖音赋能每个人都能创作出高质量和内容丰富的短视频。在音频内容创作方面，基于深度学习的语音合成系统，应用到新闻播报和小说听书。同时，我们还在积极探索个性化合成技术，包括模拟不同发音人的音色与风格等。音乐是具有高商业价值的内容形式，同时也是构成其它内容的重要元素，因此音乐生成也是我们探索的研究方向。

在这个演讲中，我将会介绍人工智能在文本、视频、语音、音乐的自动理解和生成技术的最新发展，以及在内容创作和交流上的许多新的应用。

听众受益：

了解人工智能前沿技术趋势
了解人工智能在计算机视觉、NLP、深度学习等领域的最新技术应用

讲师介绍：

马维英

字节跳动副总裁人工智能实验室负责人

马维英，现任字节跳动公司副总裁兼人工智能实验室负责人，带领团队在机器学习、计算机视觉、计算机图形学、语音和音乐、自然语言处理、个性化推荐和搜索等领域进行基础研究和核心技术开发。他的团队所开发的技术通过字节跳动的产品（例如今日头条和抖音）已经在全球范围被数亿日活跃用户使用。他曾在世界级会议和学报上发表过逾 300 篇论文，并拥有 160 多项技术专利。他是电气电子工程师学会院士(IEEE Fellow)、美国计算机协会杰出科学家(ACM Distinguished Scientist)及中国“千人计划”专家。他是 2008 国际互联网大会(WWW)的程序委员会联合主席, 以及 2011 年国际信息检索大会(SIGIR)的联合主席。他曾经在诸多学术期刊编委会中任职, 包括 ACM 信息系统学刊 (TOIS), ACM/Springer 多媒体系统学报和《多媒体工具与应用》杂志等。他于 2010 年至 2016 年担任国际互联网大会(WWW)的 Steering Committee 委员。2018 年 7 月，马维英入选 TOP100 的 CS 计算机科学家，h-index 104，全球排名 86，中国排名第 2。他于 2010 年获得台湾清华大学 EECS 学院的杰出校友荣誉，以及 2013 年美国加州大学圣芭芭拉分校电气和计算机工程系 50 周年的杰出讲座(Distinguished Lecture)荣誉。

在加入字节跳动之前，他从 2001 年到 2017 年 2 月在微软亚洲研究院工作，担任研究院常务副院长，领导在信息检索、自然语言处理、机器学习、互联网搜索技术、知识图谱和数据挖掘，多媒体分析和理解等方面的研究。他的团队开发许多关键核心技术并用于微软必应搜索引擎 Bing 和在线广告 Ads Center，以及微软认知服务 Cognitive Services，Exchange, SharePoint, Delve, Azure，微软小冰聊天机器人和问答系统。他还在 GitHub 开源了多项技术, 包括使得大规模机器学习任务具有高度可扩展性, 高效性和灵活性的分布式机器学习工具包 Distributed Machine Learning Toolkit, 和基于内存的分布式大规模图数据处理引擎 Microsoft Graph Engine, 以及让计算机理解自然语言所需要掌握的概念和知识图谱 Microsoft Concept Graph。

他于 1990 年毕业于台湾国立清华大学电气工程系，后于 1994 年和 1997 年分别获得美国加州大学圣芭芭拉分校(University of California at Santa Barbara)电气和计算机工程系硕士和博士学位。