写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:054861

评论

发布
暂无评论

Apache SeaTunnel 2.3.10 正式发布 —— 全新功能与多项改进,助力数据集成再升级!

Apache SeaTunnel

中小企业数字化转型痛点与解决方案

天津汇柏科技有限公司

数字化转型

从Curl到文档发布:Apipost让接口调试与文档协同更优雅

数据追梦人

鸿蒙开发|鸿蒙系统项目开发前的准备工作

肥晨

2025杭州国际人形机器人展览会

AIOTE智博会

机器人展 智能机器人展 人形机器人展展

电机控制的数字化升级:基于DSP和FPGA的仿真与实现

DevOps和数字孪生

故障定位系列-2-共享连接池故障

乒乓狂魔

故障定位 AIOPS 可观测

千万级数据秒级响应!碧桂园服务技术引擎重构智慧社区新标杆

智在碧得

分布式数据一致性场景与方案处理分析|得物技术

得物技术

分布式 事务消息 分布式一致性 业务场景分析

内核探究|Apache Cloudberry 并行查询技术解析

酷克数据HashData

「摩根士丹利」最新人形机器人研报:头部人形机器人公司梳理和趋势分析(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

鸿蒙开发|开启鸿蒙开发之旅-发工具下载安装、项目创建和预览

肥晨

Shopify 的接口对接技术

北京木奇移动技术有限公司

跨境电商 软件外包公司 shopify开发

大模型核心技术解析:蒸馏、量化、MoE与多头注意力在测试中应用

测试人

人工智能

ArkTS编程语法基础,让你成为HarmonyOS开发高手

肥晨

鸿蒙开发|鸿蒙系统的介绍(为什么要学习鸿蒙开发|鸿蒙系统的官方定义|鸿蒙和安卓、ios的对比)

肥晨

京东API最新指南:商品视频接口接入与应用

tbapi

京东API 京东商品视频API 京东商品视频数据采集 京东视频API

智能制造:集成电路、芯片行业的介绍与思路

积木链小链

数字化转型 数字化 智能制造

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

阿里巴巴云原生

阿里云 云原生 可观测

【征程 6】工具链 VP 示例为什么能运行

地平线开发者

自动驾驶 算法工具链 地平线征程6 底层软件

MobPush智能消息推送能力大集结,国内外消息触达通道来了!

MobTech袤博科技

mobpush 消息推送系统

MCP over MQTT:EMQX 开启物联网 Agentic 时代

EMQ映云科技

mqtt MCP

data-testid 如何引领 UI 自动化变革

FunTester

征程 6 系统 power 状态机介绍

地平线开发者

自动驾驶 算法工具链 地平线征程6 底层软件

《华为云确定性运维专刊》第六期正式发布!

华为云开发者联盟

运维 华为云

1688API最新指南:商品详情接口接入与应用

tbapi

1688商品详情接口 1688API 1688商品数据采集 1688商品详情API 1688overseas

室内LED显示屏:如何避免伤害眼睛的眩光问题

Dylan

数字 LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏

实验室管理系统(源码+文档+讲解+演示)

深圳亥时科技

MobTech秒验支持H5场景,本机一键登录验证更便捷

MobTech袤博科技

秒验

NocoBase 定价调整

NocoBase

开源 低代码 零代码 无代码 价格调整

研发管理系统国产替换,中国企业需要怎样的“信创迁移方案”?

万事ONES

研发管理 ONES

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章