LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态模型

智能 2025-10-16 10:18

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

LLaVA-OneVision-1.5是什么

LLaVA-OneVision-1.5 是开源的多模态模型，通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器，结合 2D 旋转位置编码和区域感知注意力机制，支持可变输入分辨率，增强对象和 OCR 能力。语言模型基于 Qwen3，通过三阶段训练流程（语言–图像对齐、高质量知识中期预训练和视觉指令对齐）进行优化。训练中采用离线并行数据打包和混合并行策略，提升算力和显存效率。数据方面，构建了 85M 预训练数据集，采用“概念均衡”策略，涵盖多种来源；22M 指令数据覆盖八大类别，经过多源聚合和格式统一。LLaVA-OneVision-1.5 在多模态基准上表现出色，成本可控，且全链条透明开放，提供代码、数据和模型资源，助力社区低成本复现和拓展。

LLaVA-OneVision-1.5的主要功能

多模态理解与生成：能处理和理解图像、文本等多种模态的信息，生成高质量的文本描述、回答问题或进行推理。
视觉问答（VQA）：针对图像中的内容回答问题，支持广泛的视觉任务，如物体识别、场景理解等。
图像描述生成：为输入的图像生成准确且富有细节的描述文本，帮助用户更好地理解图像内容。
指令遵循与执行：根据用户提供的指令执行相应的任务，如图像编辑、信息提取等，具有良好的指令泛化能力。
跨模态检索：支持基于文本查询图像或基于图像查询文本，实现跨模态的信息检索。
长尾识别能力：对数据中出现频率较低的类别或概念也能进行有效识别和理解，提升模型的泛化能力。
多语言支持：支持多种语言的输入和输出，具备一定的跨语言理解和生成能力。
知识增强：通过高质量的知识数据进行预训练，使模型具备更丰富的世界知识，更好地处理复杂的多模态任务。
高效训练与复现：采用优化的训练策略和数据打包技术，实现高效的训练过程，提供完整的代码和数据资源，方便社区复现和拓展。

LLaVA-OneVision-1.5的技术原理

视觉编码器：采用自研的 RICE-ViT（Region-aware Cluster Discrimination Vision Transformer）作为视觉主干，通过区域感知注意力机制和统一的区域簇判别损失，增强对图像中局部区域的语义理解，同时支持可变输入分辨率。
投影器设计：通过多层感知机（MLP）将视觉特征映射到语言模型的文本嵌入空间，实现视觉特征与语言特征的有效对齐。
语言模型：基于 Qwen3 作为语言骨干，提供强大的语言生成和理解能力，支持多模态任务中的文本处理。
三阶段训练流程：包括语言–图像对齐、高质量知识中期预训练和视觉指令对齐，逐步提升模型的多模态对齐能力和任务泛化能力。
离线并行数据打包：通过特征驱动的“概念均衡”策略构建预训练数据集，并采用离线并行数据打包技术，减少 padding 浪费，提高训练效率。
混合并行与长上下文优化：在训练过程中采用混合并行（张量并行、流水并行和序列并行）以及长上下文优化技术，提升算力利用和显存效率。
数据构建与优化：构建了大规模的预训练数据集和指令微调数据集，通过多源聚合、格式统一和安全筛除等手段，确保数据的高质量和多样性。

LLaVA-OneVision-1.5的项目地址

Github地址：https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
HuggingFace模型库：https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
arXiv技术论文：https://arxiv.org/pdf/2509.23661
在线体验Demo：https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5