50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:054778

评论

发布
暂无评论

由亚马逊云科技 Graviton4 驱动的全新内存优化型实例 Amazon EC2 实例(R8g),现已开放预览

亚马逊云科技 (Amazon Web Services)

Java’ Amazon EC2

一文详解应用安全防护ESAPI

华为云开发者联盟

安全 开发 华为云 华为云开发者联盟 应用安全防护

DevOps是什么?只看这篇文章就够了!

DevOps 华为云

年度大模型榜单揭晓,智谱AI GLM-4在上海人工智能实验室司南榜单中位居国内榜首

极客天地

AI大模型:基础模型的新时代

百度开发者中心

人工智能 大模型

平台工程: 用Backstage构建开发者门户 - 2

俞凡

平台工程

什么是企业级应用软件?对企业有什么应用意义?常见的企业级应用软件有哪些?

天津汇柏科技有限公司

创业 企业级应用 企业级应用程序开发 企业级应用软件

软件架构一致性 —— 被忽视的研发成本

阿里技术

软件架构 研发 研发成本

【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)

码界西柚

大数据 flink flink 实战 技术指南 2024年第三十一篇文章

一文搞懂设计模式—单例模式

Java随想录

Java 设计模式

从3天到3小时,“文思助手”让行业专业写作“文思泉涌”

飞桨PaddlePaddle

百度 paddle 百度飞桨 文心大模型‘ 飞桨星河社区

探索大模型的端应用与形态

百度开发者中心

人工智能 深度学习 大模型

eosio.token 智能合约介绍

BSN研习社

区块链 智能合约 EOS

本地缓存Ehcache的应用实践 | 京东云技术团队

京东科技开发者

面试官:Sentinel是如何实现限流的?

王磊

Java 面试

实用技巧:Mock.js 模拟数据生成教程

Apifox

前端 前端开发 Mock Mock 服务 Mock.js

云小课|Runc容器逃逸漏洞(CVE-2024-21626)安全风险通告

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云云小课

预训练对话大模型深度解读

百度开发者中心

自然语言处理 深度学习 大模型训练 大模型

预训练对话大模型深度解读

百度开发者中心

自然语言处理 深度学习 大模型

服装品牌如何利用数字化工具提升商品管理效率

第七在线

数字化商品计划管理:提升运营效率和竞争力的关键

第七在线

私有化部署的局域网即时通讯工具

BeeWorks

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章