Nexa AI 发布 Omnivision：一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章

Nexa AI 发布 Omnivision：一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个，降低了延迟和计算要求，并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层，以确保可以无缝地处理多模态输入。

Omnivision 的架构专为高效的多模态处理而设计，具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础，而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384，块大小为 14×14，优化了视觉数据提取。然后，投影层使用多层感知器（MLP）将图像嵌入与语言模型的 token 空间对齐，从而简化了视觉语言集成。

图片来源：Nexa AI 博客

Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍，这样可以在不影响准确性的情况下降低处理要求。例如，Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题，所需的 RAM 不到 1GB。为了确保准确性和可靠性，它采用了直接偏好优化 (DPO)，利用高质量数据集最大限度地减少幻觉，提高预测的可信度。

该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入，以建立基础能力。随后是监督微调，以增强模型解释上下文和生成相关响应的能力。最后，直接偏好优化（DPO）通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。

在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中，Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步，包括在 ScienceQA 测试数据上达到 71.0% 的准确率，在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。

图片来源：Nexa AI 博客

目前，Omnivision 专注于视觉问答和图像字幕。不过，据 Nexa AI 透露，他们计划扩展该模型的功能，以支持光学字符识别（OCR）。在最近的一次 Reddit 讨论中，AzLy 分享道：

目前，OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过，支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架，支持多种多模式任务，可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段，团队正在积极收集用户反馈，用于指导未来的改进工作。

查看原文链接：

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

评论

发布

暂无评论

文心大模型助力企业级NLP模型快速定制

百度开发者中心

人工智能 nlp 文心大模型

极限科技（INFINI labs）荣获中国信通院大数据“星河”标杆案例

极限实验室

中国信通院极限科技 “星河”标杆案例

微店商品API：电商的实时数据利器

虾皮Shopee商品详情API：电商实时数据获取的关键

NFTScan | 12.11~12.17 NFT 市场热点汇总

NFT NFT\ NFTScan nft工具

5个免费、跨平台的SQLite数据库可视化工具

不在线第一只蜗牛

sqlite sql 开源数据可视化

腾讯捐赠编译器基础软件，为中国开发者“添了双筷子”

腾讯云大数据

制造业进项税额转出全场景数智化管理

万界星空MES安灯管理：优化生产监控的重要工具

万界星空科技

数字化转型 mes 安灯系统 mes安灯管理生产管理

什么是 DDoS ？如何识别和应对DDOS攻击

德迅云安全杨德俊

Web 安全 DDoS

未来LED全彩显示屏的发展趋势研究

屏幕亮度 LED LED显示屏户外LED显示屏

你的JoinHint为什么不生效

华为云开发者联盟

数据库后端华为云华为云开发者联盟华为云GaussDB(DWS)

本周六下午【 TiDB 社区交流活动上海站】数据库运维有话聊，谈谈你了解的灾备实践，参会即可获得社区周边 3 件套

TiDB 社区干货传送门

基于Stable Diffusion的智能绘画大模型

百度开发者中心

人工智能大模型

软件测试/测试开发/人工智能丨GraphWalker自动化测试用例生成

人工智能软件测试

在CentOS上搭建NFS服务器

Amazon CodeWhisperer 在 vscode 的应用

亚马逊云科技 (Amazon Web Services）

人工智能云上探索实验室 Amazon CodeWhisperer

更快内存、更大缓存，第五代英特尔至强可扩展处理器为多元工作负载提供出色性能

社招邀请｜阿里云热招岗位简历投递中！

阿里云CloudImagine

TDengine 签约中船九院，助力航运业智能化转型升级

tdengine 时序数据库国产时序数据库

变革自然语言处理的新型大模型架构

百度开发者中心

finally中的代码一定会执行吗？

米哈游宣布启动鸿蒙原生应用开发

新消费日报

mac强大的音视频转换器：Permute 3激活中文最新版

胖墩儿不胖y

Mac软件音视频转换器音视频格式转换

Shopee解析商品详情SKU方法丨ShopeeAPI接口封装指南

Shopee 虾皮商品详情接口 shopee商品数据接口 shopee商品详情数据接口 shopee API

集成开发环境（IDE）的用途？

小魏写代码