写点什么

一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”

作者:Robert Krzaczyński

  • 2025-11-09
    北京
  • 本文字数:1039 字

    阅读完需:约 3 分钟

大小:486.04K时长:02:45
一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”

NVIDIA 近日推出 OmniVinci,这是一款专为多模态理解与推理而设计的大语言模型,能够处理文本、视觉、音频,甚至机器人数据等多种输入形式。该项目由 NVIDIA Research 团队主导,探索如何让模型以更接近人类的方式理解文字、图像和声音等多种信息。


OmniVinci 将架构创新与大规模合成数据流水线相结合。据研究论文介绍,该系统包含三项核心组件:OmniAlignNet,用于将视觉和音频嵌入对齐至共享的潜在空间;Temporal Embedding Grouping(时间嵌入分组),用于捕捉视频和音频信号间的动态变化关系;以及 Constrained Rotary Time Embedding(受限旋转时间嵌入),用于编码绝对时间信息,从而在多模态输入间实现同步。


研究团队还构建了一个新的数据合成引擎,生成了超过 2400 万条单模态和多模态对话,用以训练模型如何整合并跨模态进行推理。尽管训练仅使用了 0.2 万亿个 token(仅为 Qwen2.5-Omni 的六分之一),但据报道,OmniVinci 在多项关键基准测试中表现更佳:

  • 在跨模态理解任务 DailyOmni 上提升 19.05

  • 在音频任务 MMAR 上提升 1.7

  • 在视觉任务 Video-MME 上提升 3.9


基准结果来源: https://huggingface.co/nvidia/omnivinci


NVIDIA 研究人员表示,这些结果表明“多模态之间是相互强化的”,当模型能够同时处理视觉与听觉输入时,其感知与推理能力都会显著提升。早期实验也已延伸至机器人、医学影像和智能工厂自动化等应用领域,多模态上下文的引入有望提升决策精度并降低响应延迟。


然而,这一发布也引发了部分争议。尽管论文中称 OmniVinci 为开源模型,但它实际采用了 NVIDIA 的 OneWay Noncommercial License 许可证,限制了商业用途。这一做法在研究者与开发者社区中引起了讨论。


数据研究员 Julià Agramunt 在 LinkedIn 上写道

没错,NVIDIA 花了钱,也确实把模型造出来了。但把一个“只限研究用”的模型放出来,却把商业权利牢牢攥在自己手里,这哪叫开源?简直是“地主收租”:社区干活,他们坐享其成。这不是共享创新,而是披着慷慨外衣的利益收割。


在 Reddit 上,一位用户也抱怨了访问受限的问题:

有人拿到访问权限了吗?我只是想看看他们的基准测试结果,但被卡在他们那套“用户审核”流程里,太离谱了。


对于获得访问权限的研究人员,NVIDIA 提供了通过 Hugging Face 部署的设置脚本与示例,展示如何直接在视频、音频或图像数据上使用 Transformers 进行推理。该代码库基于 NVILA(NVIDIA 的多模态基础架构)构建,并全面支持 GPU 加速,以实现实时应用。


原文链接:

https://www.infoq.com/news/2025/10/nvidia-omnivinci/

2025-11-09 20:563

评论

发布
暂无评论

京东商品详情数据在数据分析行业中的重要性

tbapi

京东商品详情数据接口 京东API接口

拼多多根据ID取商品详情 API 的优势是什么?

技术冰糖葫芦

API 接口

华为云耀云服务器L实例:高性能助力中小企业数字化转型

轶天下事

华为云耀云服务器L实例:快速、稳定、高效的企业建站新引擎

轶天下事

华为云耀云服务器L实例的多元应用场景,助力企业高效运营

轶天下事

全方位支持:华为云助力中企业小程序轻松上云

轶天下事

探索数字化转型之道,华为云这款服务器助您飞跃商业高峰

平平无奇爱好科技

引领数字化新风潮,华为云耀云服务器L实例有什么卓越之处?

轶天下事

Azure RTOS ThreadX 系统分析之TraceX

SkyFire

TraceX ThreadX

高性能保障企业上云,华为云助力小程序开发稳步推进

平平无奇爱好科技

超越卡顿,突破瓶颈!华为云耀L实例引领中小企业游戏开发新风潮

平平无奇爱好科技

突破游戏开发瓶颈,华为云耀云服务器L实例助您游刃有余

平平无奇爱好科技

稳定可靠的数字之选,华为云耀云服务器L实例成初创企业理想云服务器

平平无奇爱好科技

智能选购、简便操作,华为云耀云服务器L实例为小程序开发降本增效

平平无奇爱好科技

华为云耀云服务器L实例:小程序开发新趋势的智能选择

轶天下事

华为云CodeArts 开源治理服务,解锁软件安全新标准

YG科技

抖音商品详情API是什么?

技术冰糖葫芦

API 接口

解锁数字化转型的钥匙,华为云耀云服务器L实例深度解析

平平无奇爱好科技

痛过才知道,企业上云为什么要选择华为云

平平无奇爱好科技

华为云耀云服务器L实例,企业数字化转型的理想云服务器

平平无奇爱好科技

华为云耀云服务器L实例,中小企业开启数字化转型的好帮手

轶天下事

华为云耀云服务器L实例:中小企业数字化转型的强大动力

轶天下事

如让企业轻松上云?华为云这款服务器帮你轻松搞定

轶天下事

一边秀肌肉,一边设围墙,NVIDIA 发布 OmniVinci,性能碾压 Qwen2.5-Omni,却被骂“假开源”_AI&大模型_InfoQ精选文章