写点什么

生产、交互、消费全链路升级,开启“三智”视频新时代

  • 2024-11-11
    北京
  • 本文字数:4087 字

    阅读完需:约 13 分钟

大小:2.06M时长:11:58
生产、交互、消费全链路升级,开启“三智”视频新时代

谷歌在 2015 年曾预测:“未来互联网世界 80%的内容将是以视频形式呈现的。”


未来已来!十年前的预判在今天几乎全部实现。不仅如此,视频在工作生活中的渗透率不断提升,并且过去一年中又有很多全新视频体验来到我们身边:


AIGC 可以快速生产短剧,抖音联合博纳影业出品的《三星堆:未来启示录》一上线,便获得了惊人的 1.4 亿次播放量;


奥运会期间裸眼 3D 观赛、VR 直播观赛已成为现实,PICO 还为用户全新打造了巴黎奥运会观赛场景;

游戏《黑神话:悟空》爆火,为全球玩家提供了一场虚实融合的中国文化盛宴,并且带火了一众线下旅游打卡圣地;


在 15 日火山引擎与 intel 联合举办的“视频云技术大会”上,火山引擎总裁谭待就以数字分身的形式出现,采用豆包语音合成模型和形象驱动算法,达到真人级别的效果,整个演讲过程看上去非常自然、逼真……



所有这些创新应用的背后,都是 AI 带来的颠覆性变化。当下,数字视频时代已经向 AI 视频时代跃迁,用户的需求也在从更流畅、更实时、更高清——升级为更智能、更交互、更沉浸。而要实现这些“更……”,依赖的就是生产、交互、消费等全链路的 AI 升级。


智能生产,多模态使能高品质


正如谭待所描述的,“视频正迅速崛起为人类的第二语言,其丰富的表达手段和效果远超传统文字,为我们提供了更多元、更生动的交流方式。”


随着视频的重要性不断提升,生产端的挑战便是如何以更少的时间、更低的成本生产出更高质量的内容。



比如在电商领域,过去一年中短视频、直播、数字人占比越来越高。好的内容可以吸引用户的注意力,有效传递品牌信息,并且激发消费者购买决策。显然,“好内容”已经成为电商平台收益增长的第一生产力:优质内容高效快速生产从而拉动商品销量,随着商品运营规模大幅增长,营销成本也在大幅下滑(如上图)。

火山引擎的多模态电商素材生成方案,通过融合图像分析、AIGC(人工智能生成内容)、大模型处理、3D 物体重建等先进技术,实现了商品氛围图、图文视频、解说视频、AIGC 视频和 3D 商品模型等多模态营销素材的自动化生。


其带来的效果是门槛大幅降低:商家只需要提供基础信息和一些简单的多模态素材,就可以自动提取卖点、智能裁剪、自动生成视频。举些例子,比如输入乳饮产品的受众、产地、营养成分,就可以自动生成一张首销图或是一段营销视频;比如把服装的图片上传,就可以自动生动模特上身的效果图;比如上传商品信息之后,可以自动生成一系列内容匹配直播、短视频、货架等不同场景需求。火山引擎的多模态电商素材生成方案,端到端自动化让素材生成更智能、更快捷、更个性。


不止于电商,在短剧、赛事、演出等各种场景,也都有海量的自动化生成内容需求,比如短剧的宣发,演出的切片传播,赛事的精彩瞬间等等。火山引擎视频云推出的多模态视频理解与生成方案,依托多媒体实验室自研的 AI 视频理解技术和 AIGC 技术,实现了视频高光的自动化提取和解说内容的生成。一场精彩的演出,可以快速切出多个短片,短剧可以快速生成多段不同视角的预告片,显著缩短了制作周期,大幅降低传播、宣传的成本。


我们知道,声音是视频中的关键要素,火山引擎视频云提供的跨语言同声复刻直播服务,可以实现自动配音、自动匹配字幕,还可以声音复刻。比如在直播中可以使用豆包大模型 Seed-ASR,除了能自动打出字幕,还支持中文、英语、日语、西班牙语、印尼语、葡萄牙语等多国语言输出。在虚拟人的直播中,可以高度还原人声特点、说话风格,还可以调整演讲者口型,让观感更加自然。以“视频云技术大会”活动为例,出现在讲台上的“数字人谭待”,无论是体态、表情还是声音、语气,都实现了对真人的高品质复刻,令人惊羡。


在新视界时代,生产端的挑战是如何以更少的时间、更低的成本生成多角度、高信息密度的优质内容。火山引擎通过 AI 赋能,推出一系列解决方案从而推动了生产力变革:多模态内容根据用户需求自动生成,智能生产让创作者的创意得以充分释放,多模态内容的生产与处理已经变得触手可及。


智能交互变革,给 AI 加点“人味儿”


随着去年大模型火爆之后,与 AI 交互的应用开始兴起。比如手机中的智能助理已经成为用户与手机沟通的主要方式,很多“I 人”不喜欢线下社交,更喜欢与 AI 聊天机器人互动,现在我们拨打客服电话时很大比例都是机器人在提供服务。


举个例子,AI 陪伴已经开始走进日常生活,并且不仅局限文本交流,而是以数字人化身的形式出现,实现了实时语音对话。作为 AIGC 原生产品,AI 陪伴目前的市场热度极高,已经是当下人工智能领域成长最快速的赛道之一。据数据网站 Insightrackr 统计,AI 陪伴类产品从今年二季度开始(特别是 5 月到 7 月),每月的下载量较上月平均增加 94%。


萌宝是一家国内领先的幼儿娱乐启蒙音视频内容平台,为用户提供儿歌、故事、绘本、语言、认知、科学、艺术等多个领域内容。儿童在平台上学习、娱乐的同时,高质量、有温度的 AI 互动可以令用户体验大幅提升:新奇有趣的体验让他们更专注;个性化情感陪伴使其收获理解与关怀;边聊边学的益智启蒙互动使得学习效果更好。


平台一直想为儿童定制一个 AI 伙伴,这其中存在诸多挑战:语音响应延时要低,遇到打断情况要能自然处理,IP 角色音色要贴合,要能真正理解儿童的需求并给出恰当的引导……


总体来讲,AI 陪伴领域存在技术难度高、成本高、效果难保障等痛点。萌宝最终选了火山引擎 AI 实时交互方案。方案通过火山引擎豆包大模型和视频云 RTC 技术实现了语音数据的高效采集、处理和传输,并在服务端为用户提供了智能对话和自然语言处理的强大能力:毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。


萌宝对最终的应用效果十分满意:实时响应,互动非常自然,即使交流中被孩子打断也可以智能地续接,AI 的音色亲切且情绪饱满,给孩子们带来有感情还有趣的陪伴。最重要的是,系统能够很精准地理解孩子的需求,提供相应的回复与引导。


这个解决方案源自豆包大模型与实时音视频技术,用户不仅能用语音与 AI 进行交谈,还能像平时说话一样,在对话过程中适时打断或插话,对整体交流的质量也不受影响。经过升级后的 AI 声音相较以往而言更具表现力和感情色彩,对话也因此更自然、更真实、更流畅。


诚然,人与 AI 交互的实现并不难,但要做好却非常难。首先要实现功能价值,就是要精准理解用户的需求是什么;其次还要提供情绪价值,在理解用户意图的基础上,用最自然、最舒服的方式与用户进行交流互动。



火山引擎对话式 AI 实时交互解决方案让智能交互的生产更简单,这也助力客户可以针对不同场景不断创新应用。目前这套方案已经普遍被企业用来定制智能助手、AI 社交陪伴、儿童学习陪伴、AI 教育、智能客服等服务。其中社交领域最为典型:用户不仅能够个性化定制专属 AI Agent,还能在精心设计的剧情中与 AI 角色深度互动。


显然,交互端的智能化,给 AI 增加了不少的“人味儿”,AI 变得越来越有温度。


智能空间,跨时空使能消弭虚实缝隙


今年游戏圈最热的就是《黑神话:悟空》,其大受追捧的原因之一就是跨时空。


游戏通过无人机实景三维重建等前沿技术,将真实场景的纹理与细节以 1:1 的比例精准还原到游戏世界中,为全球玩家提供了一场虚实融合的中国风盛宴。用户在游戏中可以沉浸式观赏风景与体验文化,如果爱到极致还可以来一场说走就走的线下旅游,在游戏中被复刻的 36 个景点,甚至串起了“黑神话旅游专线”。


实际上,2D、3D 以及虚实融合的应用已经越来越多地出现在人们的工作生活中。从消费端来看,时空不再有边界,虚实融合正在引发空间智能化的变革。最近,凯文凯利(KK)预言 AI 带来的颠覆第一条就是:5000 天后镜像世界将会诞生。所谓镜像世界是依靠 AR、VR、AI 等技术将现实和虚拟世界完美融合,我们会处在一种“沉浸式计算”的时代,到处都是数字化,万物皆可与 AI 相连。


针对空间智能化的需求,火山引擎视频云推出了一系列方案:


  • 基于 AI 的 3D 生成方案,用户仅需简单上传所建 3D 内容参考图,自研系统就会自动生成关键视角和稀疏视角图像,快速构建出精确的 3D 几何结构,与传统手工 3D 建模相比,火山引擎 AIG3D 方案在效率、多样性和操作成本等方面有明显优势;


  • 大场景重建方案,实现了对真实场景的高质量 3D 几何构建与外观重建渲染,广泛应用于虚拟直播,VR 直播等场景中,高效率的生成三维直播布景,增强了用户的沉浸感体验;


  • 6DoF 直播方案,实现了高质量、超低延时的 VR 沉浸体验,已成功应用于抖音 VR 直播,成为业内首个基于 Apple Vision Pro 的 3D 直播,为用户带来了震撼的 XR 体验。



基于这些解决方案,用户已经切实体验到智能空间的价值:从文化传承的角度,火山引擎与山西高平二郎庙金代戏台、北京正乙祠戏楼等文物单位合作,将线下珍贵文物转换为线上的永久数字资源,并打造成虚实融合的沉浸式虚拟直播间。目前已经应用于抖音戏曲直播场景,提升主播直播过程的沉浸感和互动感,助力非遗传承与保护。


2024 年奥运期间,PICO 还为用户全新打造了会观赛场景,借助于 VR 大屏,运动员的每一个动作、每一滴汗水、每一帧表情都近在咫尺,沉浸式的极致观赛体验让用户仿佛置身于赛场当中。英特尔与 PICO 团队合作,依托英特尔领先的计算和渲染能力,借助火山引擎的解决方案,启动了“何以华夏”项目,对珍贵的文化遗产进行虚拟再现和推广,为用户带来沉浸式的文化体验。


显然,随着 AI 技术的发展,空间智能化得以实现,用户不再受到时间、空间的限制,消费端的智能化正在消弭物理世界与数字世界的缝隙。


【结束语】


随着生成式 AI、多模态大模型、全景直播、三维重建等技术进步,过去一年我们已经能够明显感受到科技飞跃带来的变化,我们正在迎来一个 AI 加持下的“新视界”。


从数字视频时代到 AI 视频时代的进化,用户需要更智能、更交互、更沉浸的体验,这对生产端、交互端、消费端都提出全新的挑战。只有通过 AI 全链路赋能实现“三智”,才能支持未来更多模式、应用的创新。


火山引擎视频云为全链路升级提供了强大且稳定的音视频技术基座,而英特尔则是强大算力的保障。英特尔®至强®服务器强大的 CPU 处理能力,从实时的高达 8K 的视频处理能力,到基于 AMX 指令集的 AI 算力,从传统的 CV 优化到 LLM 和 AIGC 的最新应用支持,Xeon 服务器始终为火山引擎提供了强有力的算力支撑和可靠服务。


火山引擎视频云+英特尔®至强®服务器全链路全面赋能视频“新视界”。

2024-11-11 17:005002

评论

发布
暂无评论
发现更多内容

Linux常用命令用法及实现方式

小齐写代码

安全好用性价比高的远程协同运维软件有吗?

行云管家

IT运维 远程运维 运维协同

IPQ8074- Reinventing the wireless world - Faster, stronger and more stable connectivity

wifi6-yiyi

wifi wireless IPQ8074

KeyShot 2023.3 Pro for mac(3D渲染和动画制作软件) v12.2.0永久激活版

mac

苹果mac Windows软件 KeyShot Pro 动画软件

Apifox 新功能发布:自动化测试迎来重大突破!

Apifox

程序员 测试 自动化测试 Apifox 测试工具

面向线上的springboot开发框架-Aradin

liudaac

springboot SpringCloud Alibaba spring-cloud java框架 脚手架

3D渲染和动画制作:KeyShot 2023 Pro最新注册机

Rose

3D渲染 动画制作 KeyShot Pro破解版 KeyShot Pro 2023下载 KeyShot Pro注册机

CodeWhisperer 使用经验分享

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习 云上探索实验室 Amazon CodeWhisperer

支持M1/M2 Lightroom Classic 2024 for Mac(LRC2024)中文完美激活版下载

iMac小白

UBC SDK日志级别重复率优化实践

百度Geek说

大数据 日志 sdk 企业号11月PK榜

文件夹图标修改器:Folder Factory for mac激活版

iMac小白

Folder Factory下载 Folder Factory破解版 Folder Factory mac

物理机服务器优势

Geek_f19a80

服务器

低代码平台加持后紧急交付项目如何突破极限

鲸品堂

低代码 企业号11月PK榜

最佳案例公布:EMQ 和 Intel 评选 IIoT 领域创新应用

新消费日报

animate2024破解版下载(animate v24.0新版)

iMac小白

热门PDF编辑和管理软件:Acrobat Pro DC 2022中文直装版 附一键激活补丁

Rose

Acrobat Pro DC 2022 PDF编辑器下载 Acrobat Pro DC 2022破解

需要买哪些网络设备才能过等保?求解!

行云管家

等级保护 等保测评 过等保 等保2.0

代码静态检查为什么需要对告警去做运营?

华为云开发者联盟

开发 华为云 华为云开发者联盟

JDK11升级JDK17最全实践干货来了 | 京东云技术团队

京东科技开发者

Java jdk

App Cleaner & Uninstaller激活中文最新版下载

iMac小白

IntelliJ IDEA 2023最新激活码(附IntelliJ IDEA 2023破解版下载)

iMac小白

Navicat Premium 15 for Mac(数据库开发工具)v15.0.36中文激活版

mac

Navicat Premium 苹果mac Windows软件 数据库管理软件

Mac交互式原型设计Axure RP 10中文授权码

Rose

Axure RP 10 下载 Axure RP 10中文版 Axure RP 10授权

火山引擎DataTester上线「集成工作台」功能,助力企业打造专属AB平台

字节跳动数据平台

大数据 对比实验 大数据 A/B测试

生产、交互、消费全链路升级,开启“三智”视频新时代_字节跳动_火山引擎视频云_InfoQ精选文章