从训练数据、代码到构建细节，LLaVA-OneVision-1.5要做“全开源”_生成式 AI_格灵深瞳_InfoQ精选文章



 写点什么

登录/注册

从训练数据、代码到构建细节，LLaVA-OneVision-1.5要做“全开源”

开源，是当下大模型领域的热门趋势。但大多数开源模型只是开源了模型权重和一部分代码，不提供完整的训练数据和过程细节。这使得社区无法完全了解和复现模型构建的技术，只能在已有模型上微调，难以进行更底层的技术创新。

想解决这些问题，需要更大程度上的开源。近期，灵感实验室联合 LMMs-Lab 发布多模态大模型 LLaVA-OneVision-1.5，将训练数据、代码和模型权重全链路开源。从模型效果来看，LLaVA-OneVision-1.5 在多项公开多模态基准上表现优于同等规模的 Qwen2.5-VL。

从「开源」到「全开源」，从 toy 级到商用级，LLaVA-OneVision-1.5 是如何构建起来的？

全开源，「全」在哪？

区别于一般开源模型的开放程度，LLaVA-OneVision-1.5 的全链路开源涵盖：数据、训练与打包工具链、配置脚本、日志与可复现评测命令及其构建与执行细节，确保社区复现路径清晰，无需复杂调参即可跑通。

在训练数据方面，团队推出完整开放的 85M 预训练数据集（LLaVA-OV-1.5-Mid-Training-85M）与精筛 22M 指令数据集（LLaVA-OV-1.5-Instruct-22M），并且做到“概念均衡”——团队构建了一个 50 万的词表，利用图像特征与词表特征碰撞，并控制每个词碰到的图片数，制作出一个不同于随机采样的概念均衡训练集。

除了数据集以外，LLaVA-OneVision-1.5 技术报告、代码、模型也已开源：

技术报告：https://arxiv.org/abs/2509.23661

代码：https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型：https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo：https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集：

Pretrain Data：https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data：https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

低成本手搓一个「同款 Qwen2.5‑VL」

在全开源的同时，LLaVA-OneVision-1.5 突破了单纯的学术探讨，效果可以实现甚至优于同等规模 Qwen2.5-VL，达到商用级别。

这依托于技术方法上的创新。团队对「视觉编码器+投影层+大语言模型」的 LLaVA 架构进行模块升级：视觉编码器从 CLIP 替换为格灵深瞳自研的 Glint-ViT v1.5（RICE），大语言模型从 Qwen2 替换为 Qwen3。

在训练流程上，团队遵循了以下三个阶段：

Stage1：图文配准，使用 LLaVA-1.5 558K 训练投影层，将图文匹配到统一表达空间；
Stage1.5：高质量图文知识学习，使用 LLaVA-OneVision-1.5-Mid-Traning 85M 数据集提升模型图文认知能力；
Stage2：图文指令学习，使用 LLaVA-OneVision-1.5-Instruct 22M 数据集，引导模型图文指令跟随能力。

以上三个阶段结合多模态数据高效拼接，8B 规模 VLM 预训练可大约 4 天完成，预算控制在 1.6 万美元。

LLaVA-OneVision-1.5 的全开源意味着，在相同或更低 token 预算下，通过扩大高质量数据规模并结合“概念均衡”采样，模型可在多模态理解、指令泛化等核心指标上获得可复现的性能提升。

评论

发布

暂无评论

架构实战营模块 8 作业指导

架构实战营

项目管理中常见的十个问题

项目管理管理引航计划内容合集 10月月更

大前端:入门CSS的编程世界~

CSS 大前端引航计划

什么是机器学习， CNN TensorFlow by Google神经网络深度学习易筋 ARTS 打卡 Week 69

ARTS 打卡计划

阿里内部“SpringCloudAlibaba学习笔记”全彩第三版开源

Java spring 架构面试微服务

私有云部署系列之动态IP获取（前期准备）

Python 私有云

自我提升：方法探索

程序员架构进阶

自我管理时间管理自我提升 10月月更

在线RGB和HEX十六进制颜色互转工具

“区块链＋政务”纵深发展链上共识提升服务效能

为什么感觉假期还没开始就快要结束了？

【Vuex 源码学习】第八篇 - Vuex 对 State 状态的处理

源码 vuex 10月月更

6. python 查漏补缺，namedtuple 命名元组，双向队列 deque，Counter 计数器，可排序字典

梦想橡皮擦

NodeJs 全栈创建多文件断点续传

大前端 upload 引航计划 10月月更

惊艳！阿里出产的MyCat性能笔记，带你领略什么叫细节爆炸

Java 架构面试程序人生编程语言

Web安全应急响应小记

网络安全学海

网络安全信息安全渗透测试 WEB安全应急响应

【初恋系列】我轻轻的走了，正如我轻轻的来（微博评论实战）

人工智能~~~

高可用高性能微博评论架构实战

【Flutter 专题】36 图解 Flutter 基本动画 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

009云原生之分布式事务模式

穿过生命散发芬芳

云原生 10月月更

架构实战营模块9作业

喻高咏　　　　　　　　

架构实战营

美团大佬的Java性能调优实战手册，上线当天下载量破百万！

Java 编程架构程序人生

《Go 开发指南》-快速安装 Go 环境

Effective-go 10月月更

从零开发一款Android Rtmp播放器

android 音视频引航计划 10月月更

点击量破百万！阿里内产微服务进阶讲义，简直是Java开发者的福音

Java 编程架构面试程序人生

金九银十旗开得胜！秋招字节正式批4面，顺利拿到offer

Java 架构面试程序人生编程语言

大数据作业Spark sql

音视频全链路开发实践｜引航计划｜音视频

音视频引航计划内容合集技术专题合集

阿里巴巴《Java权威面试指南（全彩版）》来袭，冲击“金九银十”有望了

Java 程序员架构面试后端

不愧是阿里巴巴内部Spring Boot实战文档，这细节讲解，神了

Java spring 架构面试微服务

这篇阿里扫地僧所写关于SpringCloudAlibaba的笔记真香！

Java 架构面试程序人生编程语言

起飞！这份技术点拉满的ELk+Lucene笔记，可能价值百万

Java 架构面试程序人生编程语言

linux之history命令