写点什么

从训练数据、代码到构建细节,LLaVA-OneVision-1.5 要做“全开源”

  • 2025-11-24
    北京
  • 本文字数:1192 字

    阅读完需:约 4 分钟

从训练数据、代码到构建细节,LLaVA-OneVision-1.5要做“全开源”

开源,是当下大模型领域的热门趋势。但大多数开源模型只是开源了模型权重和一部分代码,不提供完整的训练数据和过程细节。这使得社区无法完全了解和复现模型构建的技术,只能在已有模型上微调,难以进行更底层的技术创新。

 

想解决这些问题,需要更大程度上的开源。近期,灵感实验室联合 LMMs-Lab 发布多模态大模型 LLaVA-OneVision-1.5,将训练数据、代码和模型权重全链路开源。从模型效果来看,LLaVA-OneVision-1.5 在多项公开多模态基准上表现优于同等规模的 Qwen2.5-VL。

 

从「开源」到「全开源」,从 toy 级到商用级,LLaVA-OneVision-1.5 是如何构建起来的?

全开源,「全」在哪?

 

区别于一般开源模型的开放程度,LLaVA-OneVision-1.5 的全链路开源涵盖:数据、训练与打包工具链、配置脚本、日志与可复现评测命令及其构建与执行细节,确保社区复现路径清晰,无需复杂调参即可跑通。


在训练数据方面,团队推出完整开放的 85M 预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛 22M 指令数据集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——团队构建了一个 50 万的词表,利用图像特征与词表特征碰撞,并控制每个词碰到的图片数,制作出一个不同于随机采样的概念均衡训练集。


除了数据集以外,LLaVA-OneVision-1.5 技术报告、代码、模型也已开源:



技术报告:https://arxiv.org/abs/2509.23661

代码:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

 

低成本手搓一个「同款 Qwen2.5‑VL」

 

在全开源的同时,LLaVA-OneVision-1.5 突破了单纯的学术探讨,效果可以实现甚至优于同等规模 Qwen2.5-VL,达到商用级别。

 


这依托于技术方法上的创新。团队对「视觉编码器+投影层+大语言模型」的 LLaVA 架构进行模块升级:视觉编码器从 CLIP 替换为格灵深瞳自研的 Glint-ViT v1.5(RICE),大语言模型从 Qwen2 替换为 Qwen3。

 

在训练流程上,团队遵循了以下三个阶段:

  • Stage1:图文配准,使用 LLaVA-1.5 558K 训练投影层,将图文匹配到统一表达空间;

  • Stage1.5:高质量图文知识学习,使用 LLaVA-OneVision-1.5-Mid-Traning 85M 数据集提升模型图文认知能力;

  • Stage2:图文指令学习,使用 LLaVA-OneVision-1.5-Instruct 22M 数据集,引导模型图文指令跟随能力。

 

以上三个阶段结合多模态数据高效拼接,8B 规模 VLM 预训练可大约 4 天完成,预算控制在 1.6 万美元。

 

LLaVA-OneVision-1.5 的全开源意味着,在相同或更低 token 预算下,通过扩大高质量数据规模并结合“概念均衡”采样,模型可在多模态理解、指令泛化等核心指标上获得可复现的性能提升。

2025-11-24 17:173902

评论

发布
暂无评论

理解 JVM 工作机制(六) 垃圾收集器

Geek漫游指南

Java jdk JVM

CMake入门教程:从零开始构建C/C++项目

小万哥

程序员 后端 开发 C/C++ cmake

Sprint回顾会及Scrum工具

顿顿顿

Scrum 敏捷开发 敏捷项目管理 敏捷开发管理工具 sprint回顾会

软件测试|码农必会的git操作(一)

霍格沃兹测试开发学社

理解 JVM 工作机制(四) 回收策略

Geek漫游指南

Java jdk JVM

软件测试|Python实用炫酷技能——推导式

霍格沃兹测试开发学社

我国首例汽车企业全业务场景数据出境安全评估获批

Openlab_cosmoplat

大数据 开源 汽车

理解 JVM 工作机制(七) 内存分配和回收策略

Geek漫游指南

Java jdk JVM

理解JVM工作机制(五)垃圾回收算法

Geek漫游指南

Java jdk JVM

点云分割技术的发展现状及挑战

数据堂

3D设计必备!5个免高质量的 HDRI 环境贴图网站

Finovy Cloud

blender

c#中用System.Diagnostics.Process.Start(Path.GetFullPath(“vlc.exe.lnk“), url);用vlc的快捷方式打开http的url不起作用?

福大大架构师每日一题

C# 福大大 vlc

聊聊 Milvus GC:从一次数据丢失事件展开

Zilliz

非结构化数据 GC Milvus 向量数据库

理解 JVM 工作机制(九) 类文件结构

Geek漫游指南

Java jdk JVM

开发者们:618电商团战即将开启,“抢流量”想上分,必备这三个大招 | MobTech观察

MobTech袤博科技

人体识别图像技术在智能家居中的应用

数据堂

软件测试|简单易学的性能监控体系prometheus+grafana搭建教程

霍格沃兹测试开发学社

塞尔达工业革命卷到数字电路了!网友:怕不是要在Switch里造Switch

Openlab_cosmoplat

伟大的公司只需要十一人

Openlab_cosmoplat

开源 MidJourney

理解 JVM 工作机制(八) JVM 性能调优

Geek漫游指南

Java jdk JVM

理解 JVM 工作机制(十) 类加载机制和加载的过程

Geek漫游指南

Java jdk JVM

理解 JVM 工作机制(十一) 类加载器

Geek漫游指南

Java jdk JVM

MobTech 秒验|运营商网关取号​

MobTech袤博科技

软件测试|pyecharts绘制NBA球星得分能力对比图

霍格沃兹测试开发学社

软件测试|Python操作Excel制作报表,不要太方便

霍格沃兹测试开发学社

2023-05-24:为什么要使用Redis做缓存?

福大大架构师每日一题

redis 福大大

基于 Amazon API Gatewy 的跨账号跨网络的私有 API 集成

亚马逊云科技 (Amazon Web Services)

Amazon

从训练数据、代码到构建细节,LLaVA-OneVision-1.5要做“全开源”_生成式 AI_格灵深瞳_InfoQ精选文章