LLaVA 1.6 模型详解

核心结论: LLaVA 1.6 在视觉理解、OCR 与多模态对话方面进一步提升,通过支持高达 672×672 像素的高分辨率输入和改进的视觉指令微调数据,实现了对世界知识与逻辑推理的增强;适用于视觉问答、图文检索与多模态客服等场景,但在极大图像、视频理解与专业领域精准度上仍有提升空间。 一、模型概览 LLaVA(Large Language and Vision Assistant)1.6 基于 Vicuna 文本骨干与 CLIP 视觉编码器,采用 Q4_0 量化的 7B、13B、34B 三种规模变体: 7B 及 13B 模型:4.7 GB(7B)/8.7 GB(13B),支持最高 672×672 像素图像,128K 文本上下文; 34B 模型:16.6 GB,保持相同分辨率与上下文。 均经视觉指令微调,结合 1.3M 多模态示例,Apache-2.0 许可。 二、关键性能指标 任务 基准 LLaVA 1.6-7B LLaVA 1.6-13B LLaVA 1.6-34B Gemini Pro 文本VQA VQAv2 accuracy 82.2% 83.5% 85.1% 83.0% 文本VQA TextVQA 65.7% 67.3% 69.5% 68.9% DocVQA val accuracy 72.8% 80.5% 82.1% 80.0% OCR accuracy 88.4% 91.2% 92.0% 90.7% Multimodal MMLU val accuracy 51.1% 59.8% 61.7% 59.4% Math-Vista accuracy 46.5% 54.2% 56.8% 53.0% (以上数据来源于 LLaVA-NeXT 报告,LLaVA 1.6 在多项指标上略低于 NeXT,但仍超越 Gemini Pro 若干基准)1 ...

2025-09-08 · 3 分钟 · 429 字 · heyaohua