5G 时代来临,交互式视频会成为下一代视频黑科技吗?

阅读数:1078 2019 年 10 月 12 日 17:36

5G时代来临,交互式视频会成为下一代视频黑科技吗?

5G 时代,视频内容形态将迎来三个趋势:一是依托 5G 的大带宽,超高清视频将真正落地;二是沉浸式视频迎来发展,但如同《头号玩家》所描述的,沉浸式视频体验是人类感官消费的最终形态,还有很长的路要走;三是交互式视频,包括 3D 视频、AR 形态视频、游戏化视频,以及借由 AI 赋能的新视频消费方式。优酷在这些领域都有布局,下面将重点分享 5G 下,交互式视频中的 3D 视频技术及应用趋势。

一、视频的交互能力从何而来?

5G时代来临,交互式视频会成为下一代视频黑科技吗?

交互式视频与单向接收式视频的最大区别在于,交互要有额外的信息反馈,目前有四种交互能力:一是最传统的方式,如评论、点赞等,依靠视频之外的内容提供交互的可能性;二是信息量来自时间轴。视频形态以互动剧为主,让用户选择情节走势,在时间轴上创造更多信息量;三是信息量来自空间域。同一时刻在空间上为用户提供多样化的观看选择。如《这!就是街舞》中的多视角直拍,世界杯中不同演播室和不同风格的解说,都是让用户在同一时刻有更多可看内容。

四是信息量来自从 2D 到 3D 的视频形态变化。当视频形态从 2D 变成 3D 时,视频内容的整体组织形式就会有更丰富的结构化信息。基于立体视觉的 6DoF 视频就是方式之一。

二、交互式视频形态:准 6DoF 视频,子弹时间

首先介绍下 6DoF,6 degrees of freedom,其概念来自于物体在空间中运动时有六个不同的自由度——前后、左右、上下三个平移自由度,以及三个旋转的自由度,对应的就是点头、摇头、歪头。从自由度视角重新审视 VR,会明显发现,基于固定的 VR 相机拍摄的 VR 视频只有三个自由度:可转头但不能移动,代入感非常差。

而 6DoF 视频,是一种更自由的视频形态。首先“脚可以动”,用户可以虚拟和移动观看位置;其次“手可以动”,通过一定的手势操作来影响视频内容画面本身。优酷目前正在做的 6DoF 视频,通过相机阵列来拍更大范围,获得更多的观看自由度。

其实,类似的 6DoF 技术已有很长历史,最经典的是《黑客帝国》中男主角 NEO 仰身躲子弹的慢动作镜头,当时依靠一整排照相机拍摄,将每个相机拍好的图片叠加在一起,再生成视频,在上个世纪看起来非常具有视觉冲击力。

20 年后,我们依然在做类似的视觉呈现,技术上有何不同?其变化主要源自三方面,1)从电影特效到工业化的制作,不在使用原始拍摄图片,拍摄成本降低,展示自由度提升。 2)自由的特效创作,更大的发挥空间。3)使用摄像机,支持视频形态。

今年,优酷将 6DoF 视频技术首次应用到国内体育赛事(如 CUBA)直播中,我们将投篮画面做定格,将运动员相对的位置关系、动作,通过多视角呈现,带来现场感的观看体验。

三、交互式视频形态:6DoF 视频

严格意义上,子弹时间是 2D 视频,更侧重后期制作。真正的 6DoF 视频形态是在观看过程中,用户可以通过手指拖拽操作,选择观看角度和位置。虽然摄像机是线状的,但可以不依赖原始摄像机位置,实现上下和前后位置的调整,包括近景的人物特写、远景的全景画面。

很多人会联想到 VR 视频,但 6DoF 和 VR 视频有明显区别。比如,在一场体育赛事中,VR 视频可以向前看球员、向左右看场地,向后看观众,听起来视觉上更自由,但实际画面是散点的,并不跟随“踢球”这一主线来组织画面内容,用户看到的越多,越难以抓住视觉重点。而 6DoF 视频,摄像机阵列都在拍摄画面中的同一个位置,呈现的永远是兴趣度最高、最有趣的内容,用户只是选择观看角度和方式,实际上比传统 VR 视频有更好的视觉体验。

5G时代来临,交互式视频会成为下一代视频黑科技吗?

上图是《这!就是灌篮》、双 11 天猫潮流盛典等的场景,无论俯拍还是仰拍,无论相机安装是弧形还是直线,都可以实现。

四、交互式视频的技术链路

交互式视频的技术链路,以 6DoF 视频为例,其拍摄跟普通视频拍摄的链路是一样的,包括三个环节:

5G时代来临,交互式视频会成为下一代视频黑科技吗?

  1. 现场拍摄环节。多机位同步控制与拍摄,将采集好的视频和图像上传到云端做处理。
  2. 云端处理环节。在云上计算画面中物体的景深关系,生成基准视角的视频图像载体,并将视频图片编码,通过 CDN 传到用户手机上。
  3. 端侧播放环节。在用户端做解码,根据用户的交互操作,计算视点位置,对虚拟视点做渲染,最后显示到屏幕上。传输视频格式是通用的 H.264/H.265,播放设备本身具备解码能力,保证覆盖几乎全部机型。端到端的实时画面生成效率,同时兼顾手感,从技术角度来就是低延迟。

技术链路中的关键点,是如何生成 6DoF 视频的处理环节。

首先,传输到用户端的画面,由色彩图和深度图构成。深度图用灰度来表示物体之间的距离,其复杂性在于如何实时、准确地推算出深度并生成基准视频。深度评估与影像生成之间是反比关系,需要技术权衡与取舍。

其次,传输宽带也是影响因素之一。深度图和色彩图被压缩后会模糊,基于模糊的图像所进行的新视角生成会把瑕疵放大。目前,从优酷的实践看,100Mbps 以上的带宽,在 4G 移动网络下是很难实现的,必须依赖 5G 视频技术。

6DoF 视频节省宽带传输的第二个解决方案类似云游戏,不需要将拼接视频传到用户端,只需将用户视角的信息传到云端。云端按照用户希望看到的画面做处理和渲染,生成 2D 视频,这样所占用的宽带就很小了。但为了观看流畅,整体链路的延迟需要非常低,这部分又依赖 5G 的低延迟特性。

五、交互式视频应用前景

从行业角度出发,视频标准化更倾向于从传统的视频压缩到 3D 相关的视频处理。可以看到 MPEG 的 Roadmap 中,从 6DoF 到光场到点云的压缩处理,都是围绕 3D 和立体视频的技术进行的。优酷在国内的视频标准 AVS 部分,从 VR 标准就开始深度参与。目前我们与北大一起制定基于深度的 6DoF 视频标准,预计今年会公布初步标准。

综上所述,6DoF 视频、3D 建模视频以及 VR 视频,在业务模式、技术路径和应用场景方面都有区别。6DoF 视频的特点是自由视角的播放以及事后的内容组织重建能力,它在记录真实世界、在以体育比赛和舞台表演为核心的内容上有很明显优势。落到优酷的内容场景上,适用于信息密度大、需要有临场感的内容,所以演出、团体组合、体育和舞蹈教学类视频,6DoF 视频都可以发挥作用。

另外,在交互式视频的趋势下,视频和游戏的边界正在模糊。传统游戏最核心的特点,包括情节代入感强、用户可通过操作影响内容走势,都在逐渐纳入互动视频的制作中。另一方面,传统视频的特质,包括非常有艺术感的剧本和情节,真实画面和真人演出,在游戏中也越来越常见。二者之间的融合源于两方面:一是随着算力的大幅提升,提供了将真实世界数据化的能力,其核心是将画面进行结构化的提取,通过 3D 建模去理解场景内容。二是连接能力的提升,将用户和生产者的距离拉近,在消费内容时的交互能力越来越高。

随着 5G 带来的连接能力和云带来的算力的双重提升,交互式视频将成为视频内容革新浪潮中那一朵最闪亮的浪花。

评论

发布