写点什么

AI 视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

  • 2024-06-26
    北京
  • 本文字数:2649 字

    阅读完需:约 9 分钟

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目,在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步,也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此,从年初令人瞩目的 Sora 到近期的可灵、Luma、Gen-3 Alpha 等模型,它们所生成的视频作品均未能突破声音的局限。然而,Google DeepMind 推出的 V2A 技术,为这一问题提供了解决方案。从技术应用来看,V2A 技术与 Veo 等视频生成模型的结合,将能够创造出既具有戏剧性配乐、逼真音效,又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着 AI 视频即将告别无声时代,迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

  1. 6 月 19 日,中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料 CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估,显著降低了当前主流气象预报大模型对国际再分析资料的依赖,提升了自主数据源的应用效率和准确性。

  2. 6 月 21 日,Anthropic 发布最新大模型 Claude 3.5 Sonnet,拥有前代模型 2 倍的推理速度和 1/5 的调用成本,在多项评测中超过了 GPT-4o。

多模态领域

  1. 6 月 17 日,Runway 公司发布了其最新力作——视频生成基础模型 Gen-3 Alpha,该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。

  2. 6 月 18 日,松鼠 Ai 全新多模态智适应大模型发布会在上海召开,不仅宣布了教育大模型及系统的全方位升级,还推出了多款全新智适应教育硬件产品。在大模型方面,全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面,松鼠 Ai 推出了三款全新松鼠 Ai 智能老师——S211 白鹭松鼠 Ai 智能老师、S139 松鼠 Ai 智能老师以及 Z29 松果 Ai 智能老师,能给匹配不同用户需求,并全系搭载松鼠 Ai 最新多模态智适应教育大模型。

开源领域

  1. 6 月 15 日,英伟达宣布推出 Nemotron-4 340B,其包含一系列开放模型,可用于生成合成数据,训练大语言模型,以及所有行业的商业应用。

  2. 6 月 18 日,潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,模型权重和训练代码已经全面开源。

  3. 6 月 18 日,基于文本生成音效工具,ElevenLabs 开源视频生成音效工具。无需寻找合适的音效,用户可以通过输入文本来生成配音,且大部分音效具有 Shutterstock 的商业授权。

  4. 6 月 19 日,B 站开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。

  5. 6 月 19 日,Hedra Labs 发布视频生成模型 Character-1 的研究预览版,对多平台用户开放使用。Character-1 是一款能够通过文本和图片生成说话和唱歌视频的模型,最长支持 60 秒的免费体验,还是一个全新的创作平台,为用户提供视频创作机会。

科研领域

  1. 6 月 16 日,由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的 DressCode,标志着 3D 服装生成技术的重大突破。作为首个全面支持 CG 操作,并无缝融入工业生产流程的框架,DressCode 通过文本驱动的方式,能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的 3D 服装。

应用探索

新产品新应用/功能新动态

  1. 6 月 17 日,谷歌 DeepMind 发布了 V2A 技术进展,该技术可以结合视频像素和自然语言文本提示,为无声视频添加逼真的音效,能够实现同步的视听生成。

  2. 6 月 19 日,OpenAI 宣布和 Color Health 合作,探索通过 GPT-4o 创建 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,从而能够就癌症筛查和治疗做出更加合理的决策。

  3. 6 月 19 日,Meta 发布 AudioSeal,一款音频水印技术,能在音频片段中精准识别 AI 生成的音频内容。

  4. 6 月 19 日,月之暗面 Kimi 开放平台将启动 Context Caching 内测,将支持长文本大模型以及上下文缓存机制。

  5. 6 月 19 日,前小度 CEO 景鲲和前小度 CTO 朱凯华联合创立的 AI 创新产品公司 MainFunc 推出了旗下首款 AI Agent 搜索产品 GenSpark。该产品是一款 AI Agent 引擎,旨在“利用 AI 提供更好的搜索体验”。

  6. 6 月 19 日,Luma AI 对其视频生成模型 Dream Machine 进行了重大更新,推出了 Extend 功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下,将原本生成的 5 秒视频延长至 10 秒以上。

  7. 6 月 20 日,百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了 2D 和 3D 数字人的生成过程,实现了成本效益和效率的双重提升,而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述,系统便能迅速模仿人类的创意思维,仅需 10 分钟就能自动创造出栩栩如生的 3D 数字人形象。

智能体

  1. 6 月 20 日,斯坦福大学研究人员研发了一款仿人机器人 HumanPlus,这款机器人可以模仿人类的行为,并支持模仿动作来进行学习,例如自主叠衣服、搬运物品、弹钢琴等。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。



原文链接:https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624

2024-06-26 09:444261

评论 2 条评论

发布
用户头像
怎么不更新了
2025-01-03 10:08 · 浙江
回复
没有更多了
发现更多内容

10天拿到阿里Android岗offer,面试必知必会

android 面试 移动开发

小学生都能读懂的网络协议之:WebSocket

程序那些事

网络协议 HTTP 程序那些事 webscoket

深入剖析RocketMQ源码-NameServer

vivo互联网技术

RocketMQ 服务器 java; NameServer

带你掌握Vue过滤器filters及时间戳转换

华为云开发者联盟

JavaScript Vue 过滤器 时间戳 filters

1307页字节跳动Android面试全套真题解析火了,阿里P8大牛亲自教你

android 面试 移动开发

kafka集群迁移实践

小江

kafka 迁移 消息队列

2021Android者真的太难了,大专生三面蚂蚁金服

android 面试 移动开发

10天拿到字节跳动安卓岗位offer,阿里内部Android应届生就业宝典

android 面试 移动开发

10天用Flutter撸了个高仿携程App,薪资翻倍

android 面试 移动开发

12年高级工程师的“飞升之路”,进阶学习资料

android 面试 移动开发

关于一场甲乙双方争议的思考

boshi

创业 项目管理

2021Android常见笔试题,字节面试官

android 面试 移动开发

2021Android开发现状分析,爆火的Android面试题

android 面试

2021Android最新大厂面试真题总结,给大家安排上

android 面试 移动开发

2021Android最新大厂面试真题总结,震撼发布

android 面试 移动开发

12个View绘制流程高频面试题,膜拜大牛

android 面试 移动开发

异地多活知识总结

十二万伏特皮卡丘

2021Android大厂面试真题,2021Android面试心得

android 面试 移动开发

2021Android进阶者的新篇章,移动开发框架

android 面试 移动开发

10天拿到阿里Android岗offer,深入剖析

android 面试 移动开发

2019-2021历年字节跳动Android面试真题解析,字节跳动高工面试

android 面试 移动开发

2019-2021历年阿里Android面试真题,面试杀手锏

android 面试 移动开发

2020-2021华为Android面试真题,大厂内部资料

android 面试 移动开发

Linux IPTables:如何添加防火墙规则

华为云开发者联盟

Linux 防火墙 iptables 数据包 防火墙规则

2021Android最新大厂面试真题总结,app架构师

android 面试 移动开发

2021Android进阶者的新篇章,已开源

android 面试 移动开发

Groovy参数默认值在接口测试中应用

FunTester

接口测试 Groovy FunTester 参数默认值 重载

2020-2021阿里巴巴安卓面试真题解析,2021最新版

android 面试 移动开发

2021Android岗面试题知识点小结,Android程序员必看

android 面试 移动开发

2021Android常见面试题分享,年薪50W

android 面试 移动开发

2021Android开发面试解答之设计模式,食堂大妈看完都学会了

android 面试 移动开发

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事_AI&大模型_InfoQ研究中心_InfoQ精选文章