腾讯亿级用户规模自研业务的上云实践解读,立即报名 了解详情
写点什么

会议多到爆炸,AI 克隆一个自己来 Zoom 开会?

  • 2020-04-14
  • 本文字数:1814 字

    阅读完需:约 6 分钟

会议多到爆炸,AI克隆一个自己来Zoom开会?

过去一段时间,由于全球大部分公司开启远程办公,Zoom 这类工具的使用人数疯狂上升,从视频会议到朋友聚会都可以通过 Zoom 来实现,这也让一些人感到非常有压力。于是,国外的一些技术专家脑洞大开,通过 AI 技术想方设法的让自己从 Zoom 中逃离出来。


Zoombot:克隆一个自己去开会

近日,国外一位名叫 Matt Reed 的技术专家由于无法忍受开不完的 Zoom 会议,就建立了一个 AI 驱动的克隆项目 Zoombot,可以克隆一个自己去开会。Zoombot 使用 AI 语音识别和文本转语音工具,可以在会议中对其他人的问题做出响应。Reed 并没有事先告知他的同事,以下截图看起来效果还不错。



整个方案并不复杂,据 Reed 介绍,他先截了一些自己通过 Zoom 开会的图片,然后基于 Artyom.js 开源库(进行侦听和响应)构建了一个简单的 Web 应用程序,对其进行编程以便可以听懂一些简单的对话,比如“你好吗?”、“你明白了吗”、“再见”等。理想情况下,Zoombot 可以处理从“Hello”到“Bye”的整个会议过程,而不会引起任何人注意,但现阶段的项目更多是出于兴趣建立的,不是很完善,所以,Reed 也把项目放到 GitHub 上面了,供开发者尝试。


GitHub 地址:https://github.com/mcreed/zoombot


Reed 认为比较好的部分是不必给它一个像“Hey,Siri”这样的唤醒词,就可以开始使用。只要外界有语音触发就可以响应,配合脸部的运动给出答复。



Zoombot 项目一共花费了大约四个小时来构建,而 Reed 又花了大约四个小时来组织 Zoom 会议并记录同事们的真实反应。Reed 调侃道:“诀窍是在聊完之前就离开会议室,因为一旦进入“我听不到你的声音,可以重复一遍吗?”的死循环中就麻烦了。


Zoom 虚拟化身项目关键:一阶运动模型

如果说上面这个项目以有趣为主,接下来介绍的这个开源项目则更加接近实用,并且其所依据的理论早在一年前便有人提出。


avatarify 项目也是一位国外开发者发布在 GitHub 上的开源项目,可以为 Zoom、Skype 这类视频通话应用添加自己的替身,项目中使用的核心模型 first order model 来源于一篇 NIPS 论文《First Order Motion Model for Image Animation》。



一阶运动模型的好处是一旦经过一组描述相同类别对象的视频训练(例如人脸、人体),这种方法就可以应用于此类的任何对象。模型采用自监督的方法将外观和运动信息分离,主要由两个主要模块组成:运动估计模块和图像生成模块。


模型动画示例



如上图所示,最左边的大图像是驱动视频,右侧第一排小图像是源视频,下面一排是驱动视频。


在安装和配置完成,如果想获得一些裁剪意见,可以使用 python crop-video.py --inp some_youtube_video.mp4,它将使用 ffmpeg 生成一些命令,需要 face-alligment 库:


git clone https://github.com/1adrianb/face-alignmentcd face-alignmentpip install -r requirements.txtpython setup.py install
复制代码


其他内容可访问 GitHub 地址:


https://github.com/AliaksandrSiarohin/first-order-model


avatarify 项目地址:


https://github.com/alievk/avatarify


在 GitHub 上,作者给出了具体的安装方法,添加完成后在 Zoom 中选择设置摄像头使用 avatarify,就可以将生成的图像通过 OpenCV 实时推送到视频流了。



需要注意的地方是尽量使用头像缩放功能在预览窗口中将您的面部与目标化身的比例和位置尽可能地对齐。对齐后,单击“ X”以使用此帧作为参考来驱动其余动画。


另外,也可以在软件上按“ F”以尝试自己找到一个更好的参考系。这会减慢帧速率,但是在发生以下情况时,可以继续移动头部:当预览窗口发现面部姿势与当前使用的头像更接近时,它将闪烁绿色。您还将看到两个数字显示:第一个数字是您当前与化身对齐的紧密程度,第二个数字是参考系对齐的紧密程度。您可以选择一个好的对齐方式。完成后,再次按“ F”退出参考帧搜索模式。整个过程不需要很严格,其他一些配置仍然可以产生很好的结果,但这是一个好的起点。


此外,开发者还演示了通过该项目让马斯克加入视频会议的效果,供大家参考。


可以通过 Reddit 观看此视频:


https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/


参考链接:


https://musebycl.io/index.php/makers/agency-guy-built-ai-clone-attend-zoom-meetings-him


https://www.reddit.com/r/MediaSynthesis/comments/fxc34i/elon_musk_joined_our_zoom_call_avatarify/


https://aliaksandrsiarohin.github.io/first-order-model-website/


https://github.com/alievk/avatarify


2020-04-14 11:553599
用户头像
赵钰莹 InfoQ 主编

发布了 808 篇内容, 共 504.2 次阅读, 收获喜欢 2549 次。

关注

评论

发布
暂无评论
发现更多内容

socket编程

菜鸟小sailor 🐕

websocket

终于,SM2国密算法被Linux内核社区接受了!

阿里云基础软件团队

架构师训练营第 2 期第一周作业

井中人

1分钟带你get React setState 面试要点

Leo

面试 大前端 React setState

容器化应用系统上生产的最佳实践

东风微鸣

Kubernetes 最佳实践 生产

小熊派开发实践丨漫谈LiteOS之传感器移植

华为云开发者联盟

开发 IoT stm32

为什么Java容器推荐使用ExitOnOutOfMemoryError而非HeapDumpOnOutOfMemoryError?

东风微鸣

Kubernetes 最佳实践 jvm调优

食堂就餐卡系统设计

Griffenliu

mongodb源码实现、调优、最佳实践系列-Mongodb网络模块源码实现及性能调优(一)

杨亚洲(专注MongoDB及高性能中间件)

MySQL mongodb 中间件 架构师 分布式数据库mongodb

架构师训练营第2期-第一周-学习总结

井中人

设计数据库集群读写分离并非易事

架构师修行之路

分布式 微服务

听说你会缓存?

架构师修行之路

redis 缓存 微服务

spring-boot-route(二十二)实现邮件发送功能

Java旅途

Java Spring Boot 发送邮件

批处理 有状态等应用类型在K8S上应该如何配置?

东风微鸣

Kubernetes 最佳实践

数据安全无小事:揭秘华为云GaussDB(openGauss)全密态数据库

华为云开发者联盟

安全 数据 加密

在K8S Volume中使用 subPath

东风微鸣

Kubernetes 最佳实践

Java中的String到底占用多大的内存空间?你所了解的可能都是错误的!!

冰河

Java 内存泄露 string 性能调优 内存溢出

大明湖畔昇腾绽放,趵突泉里智能奔涌

脑极体

谁说AI看不懂视频?

华为云开发者联盟

视频 剪辑

容器开发运维人员的Linux操作机配置优化建议

东风微鸣

Kubernetes 最佳实践 k8s入门

微服务的理想与现实

京东科技开发者

云原生

一致性 hash

garlic

极客大学架构师训练营

面试官的灵魂一击:你懂 MySQL 事务日志吗?

Java架构师迁哥

标准的开发框架,对企业开发有多重要?

Learun

敏捷开发 快速开发

区块链赋能供应链金融|应用优势与四类常见模式

CECBC

区块链

关于编码

西贝

Java 编码

全面到哭!BAT内部Java求职面试宝典,必须人手一份!

Java架构之路

Java 程序员 架构 面试 编程语言

Vidyo产品给用户方带来了什么直接的便利

dwqcmo

音视频 集成架构 解决方案 智能硬件

商用密码与区块链共推数字经济发展

CECBC

网络安全 数字经济

Java中String占用空间的评估标准

陈德伟

Java jdk 源码剖析

如何基于消息中间件实现分布式事务?我想说的都在这儿了!!

冰河

分布式事务 微服务 分布式数据库 数据一致性 海量数据

会议多到爆炸,AI克隆一个自己来Zoom开会?_AI_赵钰莹_InfoQ精选文章