写点什么

AI 虚拟人多模态交互落地难题如何破解?我们在乐享 A.I. 技术沙龙成都站找到了答案

  • 2021 年 6 月 24 日
  • 本文字数:3231 字

    阅读完需:约 11 分钟

AI虚拟人多模态交互落地难题如何破解?我们在乐享A.I.技术沙龙成都站找到了答案

6 月 23 日,讯飞开放平台乐享 A.I.技术沙龙“A.I.虚拟人多模态创新交互”专场在成都圆满落幕。

 

近几年,随着图像处理、语音合成、语音识别、语义理解、多语种等多项人工智能技术不断发展,AI 虚拟人开始在各行各业落地应用,各大公司争相布局。这背后,其实是 AI 虚拟人多模态交互技术正在成为大趋势。

 

多模态融合视觉、听觉、文本等多种模态信息,能够打破单模态输入输出限制,从而更贴近人类真实使用习惯。对于 AI 交互产品来说,只有综合利用多模态信息才能更准确地理解人类行为。但现阶段受限于语义鸿沟、异构鸿沟、数据缺失等原因,多模态研究还有一定难度,如何将多模态技术应用于实际产品仍然困扰着许多开发者。

 

本次讯飞开放平台乐享 A.I.技术沙龙成都专场,致力于为开发者们提供破解多模态技术落地难题的思路参考。活动现场吸引了众多开发者参与,来自科大讯飞的多位分享嘉宾与成都的开发者伙伴齐聚一堂,围绕“A.I.虚拟人多模态创新交互”主题,展开了面对面的深入探讨与实操模拟。

 


沙龙开场,讯飞开放平台总经理张斌发表了开场致辞。他表示,成都是一个拥有巨大潜力和机会的城市,因此它对于很多企业来说有非常大的魅力。电子信息产业是成都的支柱产业,今年 2 月份成都刚刚成为第二批国家人工智能应用先导区,这体现了成都在人工智能行业中的重要地位。在讯飞开放平台上超过 210 万开发者中,来自成都的开发者数量也居于各大城市前列。因此科大讯飞希望通过本场沙龙活动与成都的开发者们建立更好的联系,一起共建人工智能生态。

 

语音合成领域发展趋势深度洞察


如今,智能语音已经成为新交互模态必不可少的技术之一,其中,语音合成能力让产品走向“开口说话”的阶段。在未来越来越多的个性化场景下,语音合成可能会往哪些方向发展?讯飞 AI 研究院副院长江源在语音合成领域从事了十多年的研究,他以“未来个性场景下语音合成发展趋势”为主题,与现场开发者分享了他对于语音合成领域技术发展趋势的深度洞察。

 

江源指出,未来面对越来越丰富的个性化场景,语音合成技术的发展方向将主要由三个诉求牵引,分别是音色、情感和多语种。



 首先,大家都想要拥有一个独一无二的声音来代表自己、代表品牌形象,因此如何便捷高效地定制个性化音色是非常大的诉求。在这方面,科大讯飞已经能够提供非常成熟的解决方案和产品,做到品牌个性化、应用个性化和用户个性化,这背后主要依靠的是讯飞自研的基于听感量化的混合数据多层级建模方案。

 

其次是自如的情感表达,传统的语音合成只要求做到信息播报,让听众听清就可以,现在随着技术的进步,机器合成的声音已经可以比较好地贴近真人的声音,大家对于声音和效果的要求也更多了,比如希望机器合成的声音更好听、更悦耳、更符合当前的使用场景,这就要求机器能够更好地表达交互之间情感的细微变化。情感也是未来人机交互中很重要的特性,关系到人工智能是否可以跨越鸿沟实现真正的智能。目前科大讯飞正在围绕可控情感语音合成技术和可控文本情感预测技术做一些研究和探索。

 

最后是方言语种的多元需求,这主要是为了帮助我们更好地保护地域性的语言和文化,以及更好地走向全球化。

讯飞 A.I.虚拟人方案及应用解读


目前,AI 主播、AI 偶像等等 AI 虚拟人场景已经成为各大公司重点布局的方向,这一场景背后从视频图像到智能语音技术缺一不可。讯飞的 AI 虚拟人方案有哪些技术创新点?讯飞怎么解决 AI 虚拟人在内容和交互上的问题?讯飞有声平台业务部总经理郜静文在以“A.I.虚拟人内容生产和多模态交互”为主题的分享中,详细介绍了讯飞 A.I.虚拟人的方案及应用。

 

科大讯飞自成立以来就一直在从事 A.I.虚拟人相关技术的研究,语音合成、语音识别、语义理解、图像理解等技术都为 A.I.虚拟人多模态技术奠定了基础。郜静文在演讲中分享了 A.I.虚拟人应用的发展历程,20 世纪 80 年代,研究人员开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段;21 世纪初,传统手绘逐渐被 CG、动作捕捉等技术取代,虚拟数字人步入探索阶段;近五年,得益于深度学习算法的突破,虚拟数字人制作过程有效简化,开始步入初级阶段;互联网、终端屏等技术的飞速发展和海量音视频内容产出的需求,又进一步推动了 A.I.虚拟人技术的发展,现如今,虚拟数字人正朝着智能化、便捷化、精细化、多样化成长。

 

讯飞 A.I.虚拟人技术架构的最底层是基础数据,包括业务知识和形象库、声音库;往上一层是包括图像识别、语义理解、3D 人脸识别、语音驱动口唇、语音合成、语音识别、人脸视频合成、肢体动作合成等在内的核心技术;再往上是基于核心技术打造出的 2D 真人、3D 卡通、3D 真人等虚拟形象。基于这些技术最后呈现给开发者的主要是三大类业务产品:播报系统,实现了文字到音频以及文字到虚拟形象的输出,也结合了相关的视频处理文件的多轨能力,能够支持输入文字以后自动输出需要的视频,目前这套系统已经有一百多个媒体和企业在使用;多模态交互系统,可以应用在金融行业的视频客服或视频面试中;软硬件一体的 A.I.虚拟人一体化解决方案,可以放在展厅、大堂做一些交互和客服的工作,减少开发者和企业的开发成本。



 郜静文在现场发布了科大讯飞 A.I.虚拟人生态平台,希望能有更多技术合作伙伴共同参与到虚拟人的研发和平台建设中来。她表示,讯飞将在这个平台中提供更多技术服务、SaaS 服务和行业解决方案,与合作伙伴共建 A.I.虚拟人生态圈。同时,讯飞对外开放 2 项定制能力,分别是 A.I.音库自训练平台和 A.I.虚拟人服务调用,支持公有云调用、私有化部署。讯飞希望能与合作伙伴共同丰富虚拟人内容和服务,共创共赢。

讯飞开放平台产品矩阵


讯飞近几年一直重点发力平台+赛道的战略,而平台属性对于生态建设来说必不可少,讯飞开放平台也承载着讯飞在 AI 生态建设的野心。讯飞开放平台产品运营总监汪舰为现场开发者介绍了讯飞开放平台目前可以提供哪些技术产品和解决方案,以及讯飞通过什么样的思路来优化这些产品。



 讯飞开放平台成立于 2010 年,是基于科大讯飞国际领先的人工智能研究成果建设的 AI 技术与生态服务平台,面向用户提供语音识别、语音合成、语义理解、文字识别、人脸识别等 AI 技术授权。截至目前,讯飞开放平台已经拥有 330 万生态合作伙伴,对外开放了 433 项 AI 能力及解决方案,全球使用讯飞开放平台技术能力的终端设备累计已经超过 31 亿。

 

汪舰表示,一项技术在实验室诞生要走过的路,远远小于这项技术从实验室走出来进入大家的生活场景要走的路。语音识别技术是讯飞的强项,但同样也会收到很多客户和使用者反馈的各种问题,为了解决这些问题,讯飞研发团队做了非常多努力。解决语音识别问题的核心是提高识别率,第一步是做好声学前端处理,通过声源定位、噪声抑制、回声消除等技术,从硬件上解决识别中的噪声问题;第二步可以通过算法层面的声学模型定制和语言模型定制来提高识别率;第三步可以借助多模态技术,让机器一边听一边看,通过捕捉主要说话人来提高识别率。

 

对于讯飞开放平台的基本理念,汪舰也进行了解读,他指出,开放平台的源头是数据,在很多场景下,数据来自各个行业的开发者和数据拥有者;拿到数据之后首先会进行数据标注,然后放到讯飞提供的机器学习引擎中去训练,最终输出一个引擎模型,讯飞会提供引擎部署服务,可以将这个引擎放到讯飞的开发平台上做云端的调用或本地化部署。

 

除了精彩的大咖分享环节之外,沙龙最后还安排了 Workshop 实操接入环节,现场由讯飞有声平台研发工程师吕磊手把手现场教学,带领开发者体验讯飞 AI 虚拟人接入实践,基于讯飞开放平台能力,不同行业的开发者都能快速开发出可以满足特定场景需求的 A.I.虚拟人。



虽然成都专场活动已经落下帷幕,但讯飞开放平台乐享 A.I.技术沙龙系列活动才只是刚刚开始。接下来,讯飞开放平台乐享 A.I.技术沙龙系列活动将继续向全国各大重点城市出发,围绕 AI 热点能力分享、行业应用探究和 Workshop 技术实践等丰富形式,与各地开发者展开实地面对面交流,为大家提供最新的人工智能理念、产品技术、解决方案和实践经验。

 

下一站,乐享 A.I.技术沙龙将会走进哪个城市呢?让我们拭目以待!

2021 年 6 月 24 日 16:171728
用户头像
蔡芳芳 InfoQ高级编辑

发布了 660 篇内容, 共 333.4 次阅读, 收获喜欢 2248 次。

关注

评论

发布
暂无评论
发现更多内容

【设计模式】原型模式,java基础入门第二版第四章课后答案

Java 程序员 后端

【牛客】从青铜到王者01,java基础入门第二版第二章答案

Java 程序员 后端

【Spring Boot 7】RabbitMQ基础知识总结,Java学习笔记在互联网上火了

Java 程序员 后端

【Spring Cloud 8】熔断与限流Sentinel,java常见面试题

Java 程序员 后端

【源码分析设计模式 10】SpringMVC中的建造者模式,mybatis技术原理pdf

Java 程序员 后端

【Spring Boot 7】RabbitMQ基础知识总结(1),java开发面试宝典

Java 程序员 后端

【数据结构与算法 9】谁发明的八皇后,mysql教程视频百度云

Java 程序员 后端

【深度思考】JDK8中日期类型该如何使用,java面试题百度网盘

Java 程序员 后端

【线程】,东软集团Java笔试题

Java 程序员 后端

【计算机网络】局域网原理与技术,一次哔哩哔哩面试经历

Java 程序员 后端

【数据库实验】,springboot视频教程迅雷

Java 程序员 后端

【备战秋招】30道Spring IOC经典面试题,kafka消息中间件原理

Java 程序员 后端

【Spring Boot 26】分别在SpringBoot和Vue中解决跨域问题

Java 程序员 后端

【Spring Boot 16】常用注解介绍及使用,内含福利

Java 程序员 后端

【Spring 持久层】Spring 事务开发,nginx原理及应用

Java 程序员 后端

【Spring5,贼厉害

Java 程序员 后端

【全栈最全Java框架总结】SSH,java线程池面试问题

Java 程序员 后端

【实习之T100开发】Genero FGL (TIPTOP4GL) 学习笔记,2021金九银十

Java 程序员 后端

【并发编程】深入了解volatile,nginx负载均衡架构

Java 程序员 后端

【程序猿历程】2020年总结,java高级课程视频

Java 程序员 后端

【Spring AOP】静态代理设计模式,大牛带你直击优秀开源框架灵魂

Java 程序员 后端

【设计模式】代理模式,java面试官常问的问题

Java 程序员 后端

【新】虚拟机深层系列,java底层实现原理

Java 程序员 后端

【自我感悟&&致学弟学妹】大三上的感悟,linux学习教程

Java 程序员 后端

【并发编程】深入了解volatile(1),linux操作系统教程海南师范大学

Java 程序员 后端

50道Linux基础命令题目及其解答 | Linux命令

Regan Yue

Linux 10月日更

【Spring Boot 4】如何优雅的使用 Mybatis,linux内核深度解析

Java 程序员 后端

【Spring Boot 15】启动类原理解析,mysql主从复制原理面试

Java 程序员 后端

【Spring 工厂】反转控制与依赖注入,成功收获美团,小米offer

Java 程序员 后端

【数据结构与算法 12】二分查找,java大数据分析技术栈

Java 程序员 后端

【ShardingSphere 技术专题】,qt图形界面编程入门课后答案

Java 程序员 后端

AI虚拟人多模态交互落地难题如何破解?我们在乐享A.I.技术沙龙成都站找到了答案-InfoQ