写点什么

AI 视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

  • 2024-06-26
    北京
  • 本文字数:2649 字

    阅读完需:约 9 分钟

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目,在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步,也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此,从年初令人瞩目的 Sora 到近期的可灵、Luma、Gen-3 Alpha 等模型,它们所生成的视频作品均未能突破声音的局限。然而,Google DeepMind 推出的 V2A 技术,为这一问题提供了解决方案。从技术应用来看,V2A 技术与 Veo 等视频生成模型的结合,将能够创造出既具有戏剧性配乐、逼真音效,又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着 AI 视频即将告别无声时代,迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

  1. 6 月 19 日,中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料 CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估,显著降低了当前主流气象预报大模型对国际再分析资料的依赖,提升了自主数据源的应用效率和准确性。

  2. 6 月 21 日,Anthropic 发布最新大模型 Claude 3.5 Sonnet,拥有前代模型 2 倍的推理速度和 1/5 的调用成本,在多项评测中超过了 GPT-4o。

多模态领域

  1. 6 月 17 日,Runway 公司发布了其最新力作——视频生成基础模型 Gen-3 Alpha,该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。

  2. 6 月 18 日,松鼠 Ai 全新多模态智适应大模型发布会在上海召开,不仅宣布了教育大模型及系统的全方位升级,还推出了多款全新智适应教育硬件产品。在大模型方面,全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面,松鼠 Ai 推出了三款全新松鼠 Ai 智能老师——S211 白鹭松鼠 Ai 智能老师、S139 松鼠 Ai 智能老师以及 Z29 松果 Ai 智能老师,能给匹配不同用户需求,并全系搭载松鼠 Ai 最新多模态智适应教育大模型。

开源领域

  1. 6 月 15 日,英伟达宣布推出 Nemotron-4 340B,其包含一系列开放模型,可用于生成合成数据,训练大语言模型,以及所有行业的商业应用。

  2. 6 月 18 日,潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,模型权重和训练代码已经全面开源。

  3. 6 月 18 日,基于文本生成音效工具,ElevenLabs 开源视频生成音效工具。无需寻找合适的音效,用户可以通过输入文本来生成配音,且大部分音效具有 Shutterstock 的商业授权。

  4. 6 月 19 日,B 站开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、角色扮演模型等多个版本。

  5. 6 月 19 日,Hedra Labs 发布视频生成模型 Character-1 的研究预览版,对多平台用户开放使用。Character-1 是一款能够通过文本和图片生成说话和唱歌视频的模型,最长支持 60 秒的免费体验,还是一个全新的创作平台,为用户提供视频创作机会。

科研领域

  1. 6 月 16 日,由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的 DressCode,标志着 3D 服装生成技术的重大突破。作为首个全面支持 CG 操作,并无缝融入工业生产流程的框架,DressCode 通过文本驱动的方式,能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的 3D 服装。

应用探索

新产品新应用/功能新动态

  1. 6 月 17 日,谷歌 DeepMind 发布了 V2A 技术进展,该技术可以结合视频像素和自然语言文本提示,为无声视频添加逼真的音效,能够实现同步的视听生成。

  2. 6 月 19 日,OpenAI 宣布和 Color Health 合作,探索通过 GPT-4o 创建 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,从而能够就癌症筛查和治疗做出更加合理的决策。

  3. 6 月 19 日,Meta 发布 AudioSeal,一款音频水印技术,能在音频片段中精准识别 AI 生成的音频内容。

  4. 6 月 19 日,月之暗面 Kimi 开放平台将启动 Context Caching 内测,将支持长文本大模型以及上下文缓存机制。

  5. 6 月 19 日,前小度 CEO 景鲲和前小度 CTO 朱凯华联合创立的 AI 创新产品公司 MainFunc 推出了旗下首款 AI Agent 搜索产品 GenSpark。该产品是一款 AI Agent 引擎,旨在“利用 AI 提供更好的搜索体验”。

  6. 6 月 19 日,Luma AI 对其视频生成模型 Dream Machine 进行了重大更新,推出了 Extend 功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下,将原本生成的 5 秒视频延长至 10 秒以上。

  7. 6 月 20 日,百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了 2D 和 3D 数字人的生成过程,实现了成本效益和效率的双重提升,而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述,系统便能迅速模仿人类的创意思维,仅需 10 分钟就能自动创造出栩栩如生的 3D 数字人形象。

智能体

  1. 6 月 20 日,斯坦福大学研究人员研发了一款仿人机器人 HumanPlus,这款机器人可以模仿人类的行为,并支持模仿动作来进行学习,例如自主叠衣服、搬运物品、弹钢琴等。


报告推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~



报告预告

金融行业是否找到了 AGI 应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要做 AGI 建设吗?如何考量金融 AGI 应用产品的效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《AGI 在金融领域的应用实践洞察》



活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,6 月 30 日前可以享受 8 折优惠,单张门票节省 960 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。



原文链接:https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624

2024-06-26 09:444388

评论 2 条评论

发布
用户头像
怎么不更新了
2025-01-03 10:08 · 浙江
回复
没有更多了
发现更多内容

2024年,是该掌握双拼打字的时候了!

左诗右码

如何借助Redis巧妙的管理用户签到?——Bitmap篇

左诗右码

redis'

云手机解决海外社媒风控问题

Ogcloud

云手机 海外云手机 跨境云手机 云手机推荐 海外社媒运营

性能测试场景设计

测吧(北京)科技有限公司

测试

新MacBook到手时,建议你需要做的事情(二)

左诗右码

Mac

活动报名丨智源研究院与行业数据应用Workshop

智源研究院

NVIDIA GPU 监控观测最佳实践

观测云

gpu

结合LangChain实现网页数据爬取

测吧(北京)科技有限公司

测试

如何消除ToB老板对市场部费用高的质疑

客户在哪儿AI

ToB营销 ToB获客 ToB增长 大客户营销

大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议成功召开

智源研究院

天润融通新品上线:坐席知识推荐,让客服工作更轻松!

天润融通

人工智能

时序数据库领航者厂商,KaiwuDB 再获信通院权威认可 🥂

KaiwuDB

可信数据库大会 数据库产业图谱 kaiwudb 信通院

如何在Redis中快速推算两地之间的距离?——Geo篇

左诗右码

redis'

如何借助Redis更高效统计UV?——Hyperloglog篇

左诗右码

redis'

酷克数据出席 2024 可信数据库发展大会 存算分离架构驱动电信行业数据平台革新

酷克数据HashData

在 Intellij IDEA 格式化代码时忽略部分代码

源字节1号

小程序 开源 前端 后端

StarRocks on AWS Graviton3,实现 50% 以上性价比提升

StarRocks

数据库 云计算 大数据 云服务 湖仓一体

不一样的 RTE Open Day,对话最专业的 RTE+AGI Builders!丨AGI Playground 现场回顾

声网

“卓越级”!火山引擎边缘云持续推动行业标准与生态建设,获多项权威认可

火山引擎边缘云

CDN 边缘计算 CDN加速 边缘AI 火山引擎边缘计算

国产大模型加持,科大讯飞-讯飞晓医APP当前累计下载量1200万

EVANjesse

AI 智慧医疗 科大讯飞 讯飞星火 国产大模型

怎样利用海外云手机进行引流?

Ogcloud

云手机 海外云手机 云手机海外版 电商云手机 跨境云手机

Altair 首席技术官:数据分析和人工智能平台帮助企业创造更好、更安全、更可持续的产品

Altair RapidMiner

人工智能 算法 数据分析 altair

阿里发布革新的音频多模态模型 Qwen2-Audio;月之暗面回应大模型显示「9.11 大于 9.9」丨 RTE 开发者日报

声网

新MacBook到手时,建议你需要做的事情(一)

左诗右码

Mac

CSS:弹性布局(display:flex)

不在线第一只蜗牛

CSS 前端 布局

@所有人,2024华为ICT大赛基础软件实践训练营来了!时间有限,别错过!

轶天下事

ETL数据集成丨通过ETLCloud工具,将Oracle数据实时同步至Doris中

谷云科技RestCloud

oracle Doris 数据同步 ETL ETLCloud

AI视频技术突破静默,让每一帧画面实现声色同步 | 大模型一周大事_AI&大模型_崔白洁 | InfoQ研究中心_InfoQ精选文章