AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:054599

评论

发布
暂无评论

第八届中国国际管道会议(CIPC)现已开启观众登记通道

江湖老铁

医疗场景实战:百条数据 RFT 微调盘古大模型,精度大幅提升

华为云开发者联盟

人工智能 LLM 华为云盘古大模型

交易所开发的实践与展望

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

【HarmonyOS Next】鸿蒙应用弹框和提示气泡详解(二)之浮层(OverlayManager),半模态页面(bindSheet),全模态页面(bindContentCover)详解

GeorgeGcs

模态 OverlayManager bindContentCover bindSheet 浮层

从 Timer 到 Timer-XL,再登时序大模型能力高峰

Apache IoTDB

HPE Aruba Networking助力电信运营商和企业加速创新,拥抱AI市场变革新机遇

科技热闻

Rust + TDengine:打造高性能时序数据处理利器

TDengine

tdengine 数据库·

网站做IPv6改造前需要哪些准备工作?

国科云

直播分享|TinyPro:一行命令,搭建包含前后端的后台管理系统

OpenTiny社区

开源 前端 OpenTiny TinyPro 中后台系统

KubeCon Europe 2025 | 一图速览华为云精彩议程

华为云原生团队

云计算 容器 云原生

【大模型加速器2.0】合合信息文档图表解析全方位深度测评

申公豹

ORC技术

签约快讯|天润融通签约石头科技

天润融通

Rust 与 FFmpeg 实现视频水印添加:技术解析与应用实践

Yeauty

rust ffmpeg Video media audio

社会福利机构一定要买堡垒机吗?取决于什么因素?

行云管家

等保 堡垒机 社会福利

25年什么样的 Agent 会脱颖而出:简单胜于复杂

极客天地

标星 62.9 万,8 个 yyds 的 GitHub 开源项目 !

JEECG低代码

GitHub 开源 开源项目

万字详解主权跨链代币标准「ERC-7281」,如何让跨链代币具有可互换性?

TechubNews

APP开发的框架

北京木奇移动技术有限公司

软件外包公司 APP外包 APP开发公司

25年深圳企业办理等保合规流程指南

行云管家

网络安全 信息安全 等保

Go 语言常见错误——并发编程

FunTester

Google 发布 Gemini 2.5 Pro 模型:思考+多模态;Vibe Coder :通过语音对话实现「氛围编程」丨日报

声网

三级等保测评的云

黑龙江陆陆信息测评部

智能感知的未来:传感器融合与数字样机技术

DevOps和数字孪生

什么是区块链dapp开发?它能做什么?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

天润融通助力扬子空调AI升级客服系统,独立解决率飙升至45%

天润融通

AI+低代码:企业数字化转型的双引擎

万界星空科技

AI 低代码 低代码平台 mes 万界星空科技低代码平台

从 MySQL 到时序数据库 TDengine:Zendure 如何实现高效储能数据管理?

TDengine

tdengine 时序数据库 数据库·

告别分库分表,时序数据库 TDengine 解锁燃气监控新可能

TDengine

tdengine 时序数据库

MacBook 跑通 : Deep Research

Lily

揭秘淘宝拍立淘API:开启智能商品搜索新时代

Noah

AI技术变革下的职场生存指南

老张

人工智能 职场成长

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章