“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

元宇宙风口之下,虚拟数字人先火了

  • 2022-01-19
  • 本文字数:3461 字

    阅读完需:约 11 分钟

元宇宙风口之下,虚拟数字人先火了

元宇宙无疑是 2021 年的概念顶流,在巨头下场、web 3.0 加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。


1 月 14 日,百度智能云 AI 人机交互实验室负责人李士岩在百度 AI 开放日上围绕当前数字人产业的发展格局、技术难点和底层驱动力进行了系统分享。


李士岩表示,虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。但在工具、应用层,中国企业已开始崭露头角。


不过,数字人规模化落地还面临三大难点:产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高。


为系统解决这些难题,百度推出了数字人平台“曦灵”,未来数字人生产、内容创作、业务配置服务将可以在一个平台上实现全链路制作和调优,降本增效。“我们近两年的奋斗目标是,通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”李士岩表示。

数字人大规模落地要突破三大难题

目前,数字人经历了以“纸片人”为代表的 1.0 阶段,以 Vtuber 主播为代表的 2.0 时代,已进化至 3.0 阶段,具备模型高精、人工智能驱动特点的数字人 3.0 成为行业主流。


李士岩介绍,第三代数字人的建模和内容生产均有 AI 参与,这使得数字人的制作效率更高,也更智能,能面向更多应用场景。可面向全群体用户,可由视频、直播、chatbot 等载体承载,更具备千人千面的互动能力。


数字人 3.0 已展现出巨大的市场空间。根据次元光谱不完全统计,2021 年国内虚拟偶像/数字人领域里至少发生 19 笔融资,2021 年产业上下游也纷纷从自己擅长的角度切入市场。虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。



中国企业中,数量最多的是资产制作和策划运营类的公司,比如推出超写实数字人的 AYAYI 燃麦科技,推出虚拟人物柳夜熙的创壹视频,但这类公司面临的挑战是门槛较低、可替代性高。


此外,掌握技术和场景的互联网公司则扮演综合性技术服务商的角色,一边推出基于自身优势场景的数字人,打造应用标杆;一边推出数字人平台,将产品继续落地到更细化的场景中,点、线互相推进。


李士岩表示,数字人产业有三大核心推动力,第一级火箭是用户需求与技术升级、第二级是政策支持与资本涌入、第三级是计算平台的迭代。


“每一次数字人发展本质上都是技术推动的,用户从平面的图文影音获取信息与交互,向实时 3D 交互反馈的需求转变,将成为数字人长期发展的根本动能,未来也将创造大量需求。“李士岩说。


虽然数字人行业拥有强劲的驱动力,但李士岩认为,当下国内数字人要大规模产业落地还面临三大难题:


首先,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒,目前行业中大多数公司只是数字人制作与运营全流程上的一环或其中几环。


其次,服务场景与演艺场景没有有效打通,表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流。


第三是满足高机动性、高频需求的成本依旧很高,这一问题归根结底还是数字人的生产效率问题。

百度推出数字人平台 “曦灵”

针对当前数字人制作存在的高门槛问题,2021 年 12 月,在百度 AI 开发者大会上,百度 CTO 王海峰正式发布了“百度智能云曦灵数字人平台”, 搭建了集数字人生产、内容创作、业务配置服务为一体的平台级产品。



百度智能云曦灵 整体架构图


据介绍,百度的数字人平台曦灵具有全场景、一站式、平台化的特点,能支持从最初数字人形象定制、人设管理再到业务编排、内容创作,最后到多种驱动模式下与用户互动的全部需求,这也意味着在一个平台上即可实现数字人的全链路调优,从而将效果做到最好。


李士岩以数字人生成环节为例,演示了百度智能云曦灵平台的功能。用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被 AI 驱动的 2D 数字人像,以前需要两三个月时间做出来的 3D 数字人,现在可以压缩到小时级,同时还可以通过一句话语音描述或简单捏脸等多种形式快速生产数字人。


在内容生产维度,通过人像驱动、自然语言理解、语音交互、智能推荐等四大 AI 引擎,支持真人场景下多样化内容的快速生成、业务配置。目前,数字人个性化功能开发也较之前更加完善,以百度刚刚发布的 3D 超写实口语数字人为例,基于面部 4D 数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达 98.5%。


据悉,早在 2019 年,百度就开始了“虚拟数字人战略”。基于多年的 AI 技术沉淀, AI 能力已成为百度智能云曦灵平台的核心能力,现在百度也在把这种能力开放给外界。李士岩表示,“我们近两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”

详解曦灵三大优势


具体而言,百度智能云曦灵具有三大优势:


(一)、全场景:


百度智能云曦灵除了提供通用解决方案外,还覆盖银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经济等领域,提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。


(二)、 一站式:


百度智能云曦灵通过四大引擎,一站式实现数字人的“能听、能说、能理解、可互动”。


  • 人像驱动引擎


通过 4D 扫描、智能绑定等 AI 技术,实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,增强角色表现力,让数字人从表情到动作更生动具体。


  • 智能对话引擎


拥有智能对话平台 UNIT,服务于智能对话系统的开发者,在对话理解和对话管理技术方面拥有强大的技术积累。可为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。


  • 语音交互引擎


该引擎拥有在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。还拥有全双工 ASR、个性化 TTS、变声器、定制唤醒词等各类功能或开发工具。


  • 智能推荐引擎


依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。


(三)平台化:


百度智能云曦灵目前已具备标准平台的快速交付能力,在 AI 引擎和资产生产线的基础上设置三大平台,帮助不同领域客户快速实现敏捷型需求,降本增效。


  • 人设管理平台: 在人设管理平台上根据不同的场景搭配设置不同的人设,比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高。

  • 业务编排与技能配置平台: 通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。

  • 内容创作与 IP 孵化平台: 偏向于演艺型数字人,如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或直播数字人需要做直播推流等,该平台均可提供相应能力。

曦灵数字人应用案例:明星数字人探索


在技术催生的数字人 3.0 阶段,虚拟人可与不同行业产生更紧密的融合。


基于市场使用场景,数字人可以分为演艺型数字人、服务型数字人两类。


演艺术型数字人包括虚拟主播、虚拟偶像以及数字孪生的虚拟品牌代言人。目前百度已经打造了 AI 手语主播、央视网虚拟主持人小 C、航天局火星车数字人祝融号、百度虚拟代言人希加加、百度 APP 代言人龚俊数字人。



值得一提的是,龚俊数字人是百度在明星代言人方向的数字孪生探索,让明星的 IP 价值得以向元宇宙以数倍价值延伸。


不久前,龚俊数字人发布新歌《2021 在说啥》刷屏全网。这是国内率先由可交互明星数字人参与作词作曲和演唱的歌曲。


龚俊拥有近两千万粉丝,但他不可能随时与每一个粉丝对话。但通过百度 APP,每个人都可以拥有龚俊数字人,且 24 小时都可以与之进行互动。龚俊数字人拥有真人龚俊一样的脸和声音,甚至他能听懂你在问什么,并做出回答。目前,“龚俊数字人”通过 AI 驱动实现了广大用户的 UGC,在百度 App 内的语音包被使用数百万次。


AI 手语主播是数字人另一个颇有价值的应用,是技术向善的代表案例。AI 手语主播采用语音识别、自然语言理解等人工智能技术,构建出一套复杂而精确的手语翻译引擎,实现了文字及音视频内容到手语的翻译;再通过专为手语优化的自然动作引擎,进行虚拟形象的驱动,将手语实时演绎为数字人的表情动作。


服务型数字人包括数字员工、虚拟员工、虚拟业务员等,可以帮助金融、运营商、政府、零售等行业提供基于数字人的新一代客户服务能力,解决排队长、回应慢、人力成本大等问题。目前,百度已经和浦发银行、光大银行、中国联通等合作推出了一对一服务型数字人。数字人客户能够提供全天候智能问答及线上业务办理服务、提供虚拟大堂经理服务,大幅提升了用户体验。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-01-19 16:116895
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 489.2 次阅读, 收获喜欢 1965 次。

关注

评论 1 条评论

发布
用户头像
希壤吧?
2022-08-05 09:48
回复
没有更多了
发现更多内容

啃书一年多的我,推荐Python初学者不要在乱看书了,有这三本就妥妥的

冇先生

TRTC代码示例文档集合完毕!哪里不会点哪里!

腾讯云音视频

腾讯云 音视频 API sdk

2021Java大厂面试集合,java多线程

策划Java工程师

Java 程序员 后端

2021Java春招面试真题详解,Git-如何优雅地回退代码

策划Java工程师

Java 程序员 后端

2021金三银四,开发者进阿里必看的30道经典数据库面试题【附详细解析

策划Java工程师

Java 程序员 后端

当企业遭遇分布式拒绝服务 (DDoS) 攻击时,第一时间该如何进行操作?

九河云安全

区块链技术如何有效应对气候变化

CECBC

【最不佳实践】Serverless应用优化四则

刘宇

Serverless 优化

2021年Java知识体系总结,部门老大:redis-分布式锁再这么用

策划Java工程师

Java 程序员 后端

编译脚本:编写CMakeFile(一)

正向成长

CMakeFile

关于Spring注解开发教程,打包全送你

华为云开发者联盟

Java spring 容器 注解 组件

ironSource 在 2021 ChinaJoy 举办多场活动赋能中国开发者

FastApi-04-请求体-1

Python研究所

FastApi 8月日更

gitlab无法通过ssh拉代码

阿呆

#GitLab

基于 Apache APISIX,新浪微博API网关的定制化开发之路

API7.ai 技术团队

Apache 网关 APISIX 微博

Python代码阅读(第2篇):数字转化成列表

Felix

Python 编程 Code Programing 阅读代码

Hologres揭秘:深度解析高效率分布式查询引擎

阿里云大数据AI技术

2021程序员进阶宝典!《零基础(1)

策划Java工程师

Java 程序员 后端

频繁出现的分布式拒绝服务 (DDoS) 攻击​,有什么办法可以抵御吗?

九河云安全

双非本化学跨专业,投岗阿里/滴滴后端三面,最终拿下offer

编程菌

Java 编程 程序员 面试 计算机

2021最新Java面试真题解析!1

策划Java工程师

Java 程序员 后端

Selenium 4以后,再不相见的API

FunTester

自动化 API selenium

Linux 网络管理技术 OSI 七层模型和 TCP/IP 四层模型

学神来啦

Linux 运维 IP

面试官:你了解JVM的锁优化吗?

百度开发者中心

Java 最佳实践 方法论 语言 & 开发

2021Java面经:Android屏幕适配-重点盘点

策划Java工程师

Java 程序员 后端

2021年五面蚂蚁,从单体到分布式,必须解决的四个问题

策划Java工程师

Java 程序员 后端

从河南暴雨、疫情反弹看区块链“灾疫”治理

CECBC

防火墙 Keepalived 异常双活恢复后部分外网访问中断问题分析

Qunar技术沙龙

运维 防火墙 网络 故障诊断 keep-alive

下一个颠覆的领域:区块链如何影响审计行业?(下)

CECBC

2021Java笔试题总结!Java个人学习之旅(第十天)

策划Java工程师

Java 程序员 后端

2021年Java开发实战!仿微信的网络聊天室项目开发【完整源码讲解

策划Java工程师

Java 程序员 后端

元宇宙风口之下,虚拟数字人先火了_AI&大模型_刘燕_InfoQ精选文章