写点什么

一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”

作者:Robert Krzaczyński

  • 2025-11-09
    北京
  • 本文字数:1039 字

    阅读完需:约 3 分钟

大小:486.04K时长:02:45
一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”

NVIDIA 近日推出 OmniVinci,这是一款专为多模态理解与推理而设计的大语言模型,能够处理文本、视觉、音频,甚至机器人数据等多种输入形式。该项目由 NVIDIA Research 团队主导,探索如何让模型以更接近人类的方式理解文字、图像和声音等多种信息。


OmniVinci 将架构创新与大规模合成数据流水线相结合。据研究论文介绍,该系统包含三项核心组件:OmniAlignNet,用于将视觉和音频嵌入对齐至共享的潜在空间;Temporal Embedding Grouping(时间嵌入分组),用于捕捉视频和音频信号间的动态变化关系;以及 Constrained Rotary Time Embedding(受限旋转时间嵌入),用于编码绝对时间信息,从而在多模态输入间实现同步。


研究团队还构建了一个新的数据合成引擎,生成了超过 2400 万条单模态和多模态对话,用以训练模型如何整合并跨模态进行推理。尽管训练仅使用了 0.2 万亿个 token(仅为 Qwen2.5-Omni 的六分之一),但据报道,OmniVinci 在多项关键基准测试中表现更佳:

  • 在跨模态理解任务 DailyOmni 上提升 19.05

  • 在音频任务 MMAR 上提升 1.7

  • 在视觉任务 Video-MME 上提升 3.9


基准结果来源: https://huggingface.co/nvidia/omnivinci


NVIDIA 研究人员表示,这些结果表明“多模态之间是相互强化的”,当模型能够同时处理视觉与听觉输入时,其感知与推理能力都会显著提升。早期实验也已延伸至机器人、医学影像和智能工厂自动化等应用领域,多模态上下文的引入有望提升决策精度并降低响应延迟。


然而,这一发布也引发了部分争议。尽管论文中称 OmniVinci 为开源模型,但它实际采用了 NVIDIA 的 OneWay Noncommercial License 许可证,限制了商业用途。这一做法在研究者与开发者社区中引起了讨论。


数据研究员 Julià Agramunt 在 LinkedIn 上写道

没错,NVIDIA 花了钱,也确实把模型造出来了。但把一个“只限研究用”的模型放出来,却把商业权利牢牢攥在自己手里,这哪叫开源?简直是“地主收租”:社区干活,他们坐享其成。这不是共享创新,而是披着慷慨外衣的利益收割。


在 Reddit 上,一位用户也抱怨了访问受限的问题:

有人拿到访问权限了吗?我只是想看看他们的基准测试结果,但被卡在他们那套“用户审核”流程里,太离谱了。


对于获得访问权限的研究人员,NVIDIA 提供了通过 Hugging Face 部署的设置脚本与示例,展示如何直接在视频、音频或图像数据上使用 Transformers 进行推理。该代码库基于 NVILA(NVIDIA 的多模态基础架构)构建,并全面支持 GPU 加速,以实现实时应用。


原文链接:

https://www.infoq.com/news/2025/10/nvidia-omnivinci/

2025-11-09 20:565439

评论

发布
暂无评论

阿里云边缘云ENS再升级 产业数字化落地向何方?

阿里云Edge Plus

2021最新Android常用开源库总结,retrofit源码

android 程序员 移动开发

Android屏幕适配很难嘛其实也就那么回事,含面试题+答案

android 程序员 移动开发

2021年大厂程序员进阶宝典,flutter面试题

android 程序员 移动开发

2021年大厂程序员进阶宝典,真是经典中的经典

android 程序员 移动开发

2021最值得加入的互联网公司有哪些,阿里三面

android 程序员 移动开发

android嵌入式开发板系统盘,看完就能找到工作

android 程序员 移动开发

androidstudio连接手机,四面阿里Android开发岗

android 程序员 移动开发

DeFi质押挖矿系统DAPP开发内容(源码)

云图说|Git云上仓库哪家好?一张图了解华为云代码托管服务

华为云开发者联盟

代码 华为云 codehub 上云 代码云托管

Android大厂高级面试题灵魂100问,金九银十

android 程序员 移动开发

android实战的书籍,超通俗解析

android 程序员 移动开发

这4个行业用进销存管理系统是肯定不会错的

低代码小观

企业 企业管理 系统 管理系统 进销存管理系统

DeFi流动性挖矿系统开发资料(源码)

2021最新中高级Android面试题目,2021必看

android 程序员 移动开发

2021高级Android笔试总结,帮你解决95%以上的问题

android 程序员 移动开发

Android-Camera内存问题剖析,通用流行框架大全

android 程序员 移动开发

论文解读:ACL2021 NER | 基于模板的BART命名实体识别

华为云开发者联盟

nlp 模板 实体识别 BART命名 NER

android5.0下载,阿里Android研发岗二面

android 程序员 移动开发

android基础知识总结,面试复盘

android 程序员 移动开发

2021年大厂程序员进阶宝典,Android开发基础面试题

android 程序员 移动开发

揭开MySQL Volcano模型迭代器性能提升千倍的秘密

华为云开发者联盟

MySQL 数据库 华为云数据库 MySQL Volcano 模型迭代器

android学习心得,并发编程挑战

android 程序员 移动开发

android实战视频教程,高并发系统基础篇

android 程序员 移动开发

2021年字节跳动+京东+美团面试总结,查漏补缺

android 程序员 移动开发

掘金万亿新IT服务大市场,联想智慧服务核心能力持续跃升

科技大数据

714页PDF的鸿蒙学习笔记,Android开发必须会的技能

android 程序员 移动开发

androidframework开发教程,安卓面试题库

android 程序员 移动开发

2021年来看看Android的发展,程序员如何应对中年危机

android 程序员 移动开发

4面阿里拿到P7Offer,Android开发指南

android 程序员 移动开发

androidsdk下载安装,经验分享

android 程序员 移动开发

一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”_AI&大模型_InfoQ精选文章