在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:054875

评论

发布
暂无评论

YashanDB|YMP 迁移 Oracle 遇到授权不兼容?一招轻松解决!

数据库砖家

数据库

浅谈如何使用 Amazon CUR 报告做更完善的成本分析

亚马逊云科技 (Amazon Web Services)

Netflix系统架构解析

码界行者

机械加工行业QMS质量管理系统

万界星空科技

万界星空科技 QMS 生产质量管理 机械加工行业 产品质量管理

报名丨第七届智源大会,6月6-7日北京见

智源研究院

Qwen3初测,小尺寸MOE利好小玩家

冯骐

人工智能 大模型 大语言模型 AI 基础设施 Qwen3

「数」论|厂级实时监控系统SIS:盛宴还是剩宴?

麦杰研究院

黑龙江等保测评应急预案

黑龙江陆陆信息测评部

JMeter、Apipost 与 Postman 的 API 测试对比:为什么 APIPost 是更聪明的选择

数据追梦人

中国制造的AI穿凿,一场直抵地心的技术远征

脑极体

AI

PIRF:432 - Performance - Pressure, Precision, Payoff

Echo!!!

English

不用Mockito写单元测试?你可能在浪费一半时间

Java随想录

Java 单元测试 Mockito

Qwen3 系列全家桶,百度百舸一键部署

Baidu AICLOUD

AI 基础设施

YashanDB|想查表空间使用率?一条 SQL 帮你搞定!

数据库砖家

数据库

YashanDB|通过 DBLink 访问 Oracle 性能慢?问题分析与优化指南!

数据库砖家

数据库

YashanDB|迁移过程中,字符串里的分号导致SQL报错?原因与解决办法来了!

数据库砖家

数据库

YashanDB|数据库时间与服务器时间不一致?原因与修复方法详解!

数据库砖家

数据库

被百万人追捧的【旅行救星】为何主动召回?

极客天地

鸿蒙游戏生态加速:华为小游戏焕新升级,抢滩百亿级市场新机遇

最新动态

英特尔代工:明确重点广合作,服务客户铸信任

E科讯

AI 绘画党AIGC创作者看过来!AI提示词可以统一管理了

龙正哲

1688 商品列表 API 深度拆解:从参数配置到数据获取

tbapi

1688商品列表接口 1688商品数据接口 1688API

StarRocks 查询优化器深度解析

StarRocks

A2A 是否只是换个了名字的 MCP?开发者该如何选择?

Baihai IDP

程序员 AI agent MCP A2A

独立开发者工具 • 半月刊 第 008 期

Immerse

YashanDB|多表更新遇到 YAS-04344?教你如何正确操作!

数据库砖家

数据库

IoTDB 广州行 | 4.26 端边云协同的新一代 AI 数据库技术沙龙回顾

Apache IoTDB

「数」论|厂级实时监控系统SIS:盛宴还是剩宴?

麦杰科技

再这样玩下去,以太坊就是离心机,就是吸血魔

ChainFlash链訊

区块链 以太坊

一文掌握 1688 商品详情 API 接口:从入门到实战

tbapi

1688商品详情接口 1688API 1688数据接口

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章