“All in Cloud”之后,和你聊聊「云原生DevOps的Kubernetes技巧」 了解详情
写点什么

元宇宙风口之下,虚拟数字人先火了

  • 2022 年 1 月 19 日
  • 本文字数:3461 字

    阅读完需:约 11 分钟

元宇宙风口之下,虚拟数字人先火了

元宇宙无疑是 2021 年的概念顶流,在巨头下场、web 3.0 加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。


1 月 14 日,百度智能云 AI 人机交互实验室负责人李士岩在百度 AI 开放日上围绕当前数字人产业的发展格局、技术难点和底层驱动力进行了系统分享。


李士岩表示,虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。但在工具、应用层,中国企业已开始崭露头角。


不过,数字人规模化落地还面临三大难点:产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高。


为系统解决这些难题,百度推出了数字人平台“曦灵”,未来数字人生产、内容创作、业务配置服务将可以在一个平台上实现全链路制作和调优,降本增效。“我们近两年的奋斗目标是,通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”李士岩表示。

数字人大规模落地要突破三大难题

目前,数字人经历了以“纸片人”为代表的 1.0 阶段,以 Vtuber 主播为代表的 2.0 时代,已进化至 3.0 阶段,具备模型高精、人工智能驱动特点的数字人 3.0 成为行业主流。


李士岩介绍,第三代数字人的建模和内容生产均有 AI 参与,这使得数字人的制作效率更高,也更智能,能面向更多应用场景。可面向全群体用户,可由视频、直播、chatbot 等载体承载,更具备千人千面的互动能力。


数字人 3.0 已展现出巨大的市场空间。根据次元光谱不完全统计,2021 年国内虚拟偶像/数字人领域里至少发生 19 笔融资,2021 年产业上下游也纷纷从自己擅长的角度切入市场。虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。



中国企业中,数量最多的是资产制作和策划运营类的公司,比如推出超写实数字人的 AYAYI 燃麦科技,推出虚拟人物柳夜熙的创壹视频,但这类公司面临的挑战是门槛较低、可替代性高。


此外,掌握技术和场景的互联网公司则扮演综合性技术服务商的角色,一边推出基于自身优势场景的数字人,打造应用标杆;一边推出数字人平台,将产品继续落地到更细化的场景中,点、线互相推进。


李士岩表示,数字人产业有三大核心推动力,第一级火箭是用户需求与技术升级、第二级是政策支持与资本涌入、第三级是计算平台的迭代。


“每一次数字人发展本质上都是技术推动的,用户从平面的图文影音获取信息与交互,向实时 3D 交互反馈的需求转变,将成为数字人长期发展的根本动能,未来也将创造大量需求。“李士岩说。


虽然数字人行业拥有强劲的驱动力,但李士岩认为,当下国内数字人要大规模产业落地还面临三大难题:


首先,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒,目前行业中大多数公司只是数字人制作与运营全流程上的一环或其中几环。


其次,服务场景与演艺场景没有有效打通,表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流。


第三是满足高机动性、高频需求的成本依旧很高,这一问题归根结底还是数字人的生产效率问题。

百度推出数字人平台 “曦灵”

针对当前数字人制作存在的高门槛问题,2021 年 12 月,在百度 AI 开发者大会上,百度 CTO 王海峰正式发布了“百度智能云曦灵数字人平台”, 搭建了集数字人生产、内容创作、业务配置服务为一体的平台级产品。



百度智能云曦灵 整体架构图


据介绍,百度的数字人平台曦灵具有全场景、一站式、平台化的特点,能支持从最初数字人形象定制、人设管理再到业务编排、内容创作,最后到多种驱动模式下与用户互动的全部需求,这也意味着在一个平台上即可实现数字人的全链路调优,从而将效果做到最好。


李士岩以数字人生成环节为例,演示了百度智能云曦灵平台的功能。用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被 AI 驱动的 2D 数字人像,以前需要两三个月时间做出来的 3D 数字人,现在可以压缩到小时级,同时还可以通过一句话语音描述或简单捏脸等多种形式快速生产数字人。


在内容生产维度,通过人像驱动、自然语言理解、语音交互、智能推荐等四大 AI 引擎,支持真人场景下多样化内容的快速生成、业务配置。目前,数字人个性化功能开发也较之前更加完善,以百度刚刚发布的 3D 超写实口语数字人为例,基于面部 4D 数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达 98.5%。


据悉,早在 2019 年,百度就开始了“虚拟数字人战略”。基于多年的 AI 技术沉淀, AI 能力已成为百度智能云曦灵平台的核心能力,现在百度也在把这种能力开放给外界。李士岩表示,“我们近两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”

详解曦灵三大优势


具体而言,百度智能云曦灵具有三大优势:


(一)、全场景:


百度智能云曦灵除了提供通用解决方案外,还覆盖银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经济等领域,提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。


(二)、 一站式:


百度智能云曦灵通过四大引擎,一站式实现数字人的“能听、能说、能理解、可互动”。


  • 人像驱动引擎


通过 4D 扫描、智能绑定等 AI 技术,实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,增强角色表现力,让数字人从表情到动作更生动具体。


  • 智能对话引擎


拥有智能对话平台 UNIT,服务于智能对话系统的开发者,在对话理解和对话管理技术方面拥有强大的技术积累。可为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。


  • 语音交互引擎


该引擎拥有在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。还拥有全双工 ASR、个性化 TTS、变声器、定制唤醒词等各类功能或开发工具。


  • 智能推荐引擎


依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。


(三)平台化:


百度智能云曦灵目前已具备标准平台的快速交付能力,在 AI 引擎和资产生产线的基础上设置三大平台,帮助不同领域客户快速实现敏捷型需求,降本增效。


  • 人设管理平台: 在人设管理平台上根据不同的场景搭配设置不同的人设,比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高。

  • 业务编排与技能配置平台: 通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。

  • 内容创作与 IP 孵化平台: 偏向于演艺型数字人,如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或直播数字人需要做直播推流等,该平台均可提供相应能力。

曦灵数字人应用案例:明星数字人探索


在技术催生的数字人 3.0 阶段,虚拟人可与不同行业产生更紧密的融合。


基于市场使用场景,数字人可以分为演艺型数字人、服务型数字人两类。


演艺术型数字人包括虚拟主播、虚拟偶像以及数字孪生的虚拟品牌代言人。目前百度已经打造了 AI 手语主播、央视网虚拟主持人小 C、航天局火星车数字人祝融号、百度虚拟代言人希加加、百度 APP 代言人龚俊数字人。



值得一提的是,龚俊数字人是百度在明星代言人方向的数字孪生探索,让明星的 IP 价值得以向元宇宙以数倍价值延伸。


不久前,龚俊数字人发布新歌《2021 在说啥》刷屏全网。这是国内率先由可交互明星数字人参与作词作曲和演唱的歌曲。


龚俊拥有近两千万粉丝,但他不可能随时与每一个粉丝对话。但通过百度 APP,每个人都可以拥有龚俊数字人,且 24 小时都可以与之进行互动。龚俊数字人拥有真人龚俊一样的脸和声音,甚至他能听懂你在问什么,并做出回答。目前,“龚俊数字人”通过 AI 驱动实现了广大用户的 UGC,在百度 App 内的语音包被使用数百万次。


AI 手语主播是数字人另一个颇有价值的应用,是技术向善的代表案例。AI 手语主播采用语音识别、自然语言理解等人工智能技术,构建出一套复杂而精确的手语翻译引擎,实现了文字及音视频内容到手语的翻译;再通过专为手语优化的自然动作引擎,进行虚拟形象的驱动,将手语实时演绎为数字人的表情动作。


服务型数字人包括数字员工、虚拟员工、虚拟业务员等,可以帮助金融、运营商、政府、零售等行业提供基于数字人的新一代客户服务能力,解决排队长、回应慢、人力成本大等问题。目前,百度已经和浦发银行、光大银行、中国联通等合作推出了一对一服务型数字人。数字人客户能够提供全天候智能问答及线上业务办理服务、提供虚拟大堂经理服务,大幅提升了用户体验。

2022 年 1 月 19 日 16:114477
用户头像
刘燕 InfoQ记者

发布了 843 篇内容, 共 284.0 次阅读, 收获喜欢 1599 次。

关注

评论

发布
暂无评论
发现更多内容

Linux运维必知:如何从其 PID 中查找进程名称

Ethereal

如何打造良好的分享氛围

Hockor

团队管理 技术分享

读一篇博客,写一段代码,每天写写Python自然就会了,每日Python第1天

梦想橡皮擦

Python 3月月更

将本地代码同步到gitee和github中去

布衣骇客

Git Commit #Github

docker、k8s 面试总结

yuexin_tech

Docker k8s

如何在敏捷中管理和减少技术负债?

PingCode

presto实战读书笔记

聚变

比特币突破4.4万美元!美欧制裁或推动俄罗斯资金转向加密货币

CECBC

遵循Promises/A+规范,深入分析Promise实现细节(基础篇)

战场小包

JavaScript 前端 Promise 3月月更

解密数据仓库LLVM技术神奇之处

华为云开发者社区

数据仓库 LLVM 算子 GaussDB(DWS) 底层虚拟机

Mybatis的where标签,竟然还有这么多不知道的!

CRMEB

如何在 eNSP 上保存配置?

Ethereal

Go语言实战之数组的内部实现和基础功能

山河已无恙

Go 语言 3月月更

从理想照进现实,浅谈“算力网络”

鲸品堂

东数西算

性能测试中Disruptor框架shutdown失效的问题分享

FunTester

Disruptor 性能测试 接口测试 高性能队列 FunTester

面试官:GRE 和 IPsec 隧道有什么区别?

Ethereal

期待!Fedora 36 发布日期和新功能

Ethereal

OKR怎么写?100个OKR案例模板

PingCode

初识工业互联网

劼哥stone

工业互联网

今儿直白的用盖房子为例,给你讲讲Java建造者模式

华为云开发者社区

Java 设计模式 对象 建造者模式 对象构建模式

[银行面试系列]1 进入银行之前必须了解的20个问题

暖蓝笔记

3月程序媛福利 3月月更

从用户输入URL到页面展示,这中间发生了什么?

Tristan

前端 浏览器

聊聊 Pulsar: Pulsar 分布式集群搭建

老周聊架构

云原生 Apache Pulsar 3月月更

开发电脑用 Windows 还是 Mac

HoneyMoose

当TIME_WAIT状态的TCP正常挥手,收到SYN后…

华为云开发者社区

TCP syn 报文 TIME_WAIT RST报文

什么是元宇宙?为何要关注它?——解码元宇宙

CECBC

Linux小技巧:如何在 Vim 中显示行号?

Ethereal

紫光展锐解除楚庆CEO职务,内部员工爆料那些不为人知的内情!

杰哥-IC男奋斗史

芯片行业思考

如何做好一场技术分享

Hockor

团队管理 个人成长

千万级学生管理系统的考试试卷存储方案

晨亮

「架构实战营」

selenium的实现原理

红毛丹

自动化测试 自动化测试框架 selenium 3月程序媛福利 3月月更

元宇宙风口之下,虚拟数字人先火了_AI_刘燕_InfoQ精选文章