写点什么

从训练数据、代码到构建细节,LLaVA-OneVision-1.5 要做“全开源”

  • 2025-11-24
    北京
  • 本文字数:1192 字

    阅读完需:约 4 分钟

从训练数据、代码到构建细节,LLaVA-OneVision-1.5要做“全开源”

开源,是当下大模型领域的热门趋势。但大多数开源模型只是开源了模型权重和一部分代码,不提供完整的训练数据和过程细节。这使得社区无法完全了解和复现模型构建的技术,只能在已有模型上微调,难以进行更底层的技术创新。

 

想解决这些问题,需要更大程度上的开源。近期,灵感实验室联合 LMMs-Lab 发布多模态大模型 LLaVA-OneVision-1.5,将训练数据、代码和模型权重全链路开源。从模型效果来看,LLaVA-OneVision-1.5 在多项公开多模态基准上表现优于同等规模的 Qwen2.5-VL。

 

从「开源」到「全开源」,从 toy 级到商用级,LLaVA-OneVision-1.5 是如何构建起来的?

全开源,「全」在哪?

 

区别于一般开源模型的开放程度,LLaVA-OneVision-1.5 的全链路开源涵盖:数据、训练与打包工具链、配置脚本、日志与可复现评测命令及其构建与执行细节,确保社区复现路径清晰,无需复杂调参即可跑通。


在训练数据方面,团队推出完整开放的 85M 预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛 22M 指令数据集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——团队构建了一个 50 万的词表,利用图像特征与词表特征碰撞,并控制每个词碰到的图片数,制作出一个不同于随机采样的概念均衡训练集。


除了数据集以外,LLaVA-OneVision-1.5 技术报告、代码、模型也已开源:



技术报告:https://arxiv.org/abs/2509.23661

代码:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

 

低成本手搓一个「同款 Qwen2.5‑VL」

 

在全开源的同时,LLaVA-OneVision-1.5 突破了单纯的学术探讨,效果可以实现甚至优于同等规模 Qwen2.5-VL,达到商用级别。

 


这依托于技术方法上的创新。团队对「视觉编码器+投影层+大语言模型」的 LLaVA 架构进行模块升级:视觉编码器从 CLIP 替换为格灵深瞳自研的 Glint-ViT v1.5(RICE),大语言模型从 Qwen2 替换为 Qwen3。

 

在训练流程上,团队遵循了以下三个阶段:

  • Stage1:图文配准,使用 LLaVA-1.5 558K 训练投影层,将图文匹配到统一表达空间;

  • Stage1.5:高质量图文知识学习,使用 LLaVA-OneVision-1.5-Mid-Traning 85M 数据集提升模型图文认知能力;

  • Stage2:图文指令学习,使用 LLaVA-OneVision-1.5-Instruct 22M 数据集,引导模型图文指令跟随能力。

 

以上三个阶段结合多模态数据高效拼接,8B 规模 VLM 预训练可大约 4 天完成,预算控制在 1.6 万美元。

 

LLaVA-OneVision-1.5 的全开源意味着,在相同或更低 token 预算下,通过扩大高质量数据规模并结合“概念均衡”采样,模型可在多模态理解、指令泛化等核心指标上获得可复现的性能提升。

2025-11-24 17:1710

评论

发布
暂无评论

架构实战营模块 8 作业指导

华仔

架构实战营

项目管理中常见的十个问题

石云升

项目管理 管理 引航计划 内容合集 10月月更

大前端:入门CSS的编程世界~

Bob

CSS 大前端 引航计划

什么是机器学习, CNN TensorFlow by Google神经网络深度学习 易筋 ARTS 打卡 Week 69

John(易筋)

ARTS 打卡计划

阿里内部“SpringCloudAlibaba学习笔记”全彩第三版开源

Java spring 架构 面试 微服务

私有云部署系列之动态IP获取(前期准备)

稻草鸟人

Python 私有云

自我提升:方法探索

程序员架构进阶

自我管理 时间管理 自我提升 10月月更

在线RGB和HEX十六进制颜色互转工具

入门小站

工具

“区块链+政务”纵深发展 链上共识提升服务效能

CECBC

为什么感觉假期还没开始就快要结束了?

脑极体

【Vuex 源码学习】第八篇 - Vuex 对 State 状态的处理

Brave

源码 vuex 10月月更

6. python 查漏补缺,namedtuple 命名元组,双向队列 deque,Counter 计数器,可排序字典

梦想橡皮擦

10月月更

NodeJs 全栈创建多文件断点续传

devpoint

大前端 upload 引航计划 10月月更

惊艳!阿里出产的MyCat性能笔记,带你领略什么叫细节爆炸

Java 架构 面试 程序人生 编程语言

Web安全应急响应小记

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 应急响应

【初恋系列】我轻轻的走了,正如我轻轻的来(微博评论实战)

人工智能~~~

高可用 高性能 微博评论架构实战

【Flutter 专题】36 图解 Flutter 基本动画 (一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

009云原生之分布式事务模式

穿过生命散发芬芳

云原生 10月月更

架构实战营模块9作业

喻高咏        

架构实战营

美团大佬的Java性能调优实战手册,上线当天 下载量破百万!

Java 编程 架构 程序人生

《Go 开发指南》-快速安装 Go 环境

看山

Effective-go 10月月更

从零开发一款Android Rtmp播放器

轻口味

android 音视频 引航计划 10月月更

点击量破百万!阿里内产微服务进阶讲义,简直是Java开发者的福音

Java 编程 架构 面试 程序人生

金九银十旗开得胜!秋招字节正式批4面,顺利拿到offer

Java 架构 面试 程序人生 编程语言

大数据作业Spark sql

Clarke

音视频全链路开发实践|引航计划|音视频

轻口味

音视频 引航计划 内容合集 技术专题合集

阿里巴巴《Java权威面试指南(全彩版)》来袭,冲击“金九银十”有望了

Java 程序员 架构 面试 后端

不愧是阿里巴巴内部Spring Boot实战文档,这细节讲解,神了

Java spring 架构 面试 微服务

这篇阿里扫地僧所写关于SpringCloudAlibaba的笔记真香!

Java 架构 面试 程序人生 编程语言

起飞!这份技术点拉满的ELk+Lucene笔记,可能价值百万

Java 架构 面试 程序人生 编程语言

linux之history命令

入门小站

Linux

从训练数据、代码到构建细节,LLaVA-OneVision-1.5要做“全开源”_生成式 AI_格灵深瞳_InfoQ精选文章