视觉理解 | heyaohua's Blog

核心结论： LLaVA 1.6 在视觉理解、OCR 与多模态对话方面进一步提升，通过支持高达 672×672 像素的高分辨率输入和改进的视觉指令微调数据，实现了对世界知识与逻辑推理的增强；适用于视觉问答、图文检索与多模态客服等场景，但在极大图像、视频理解与专业领域精准度上仍有提升空间。一、模型概览 LLaVA（Large Language and Vision Assistant）1.6 基于 Vicuna 文本骨干与 CLIP 视觉编码器，采用 Q4_0 量化的 7B、13B、34B 三种规模变体： 7B 及 13B 模型：4.7 GB（7B）／8.7 GB（13B），支持最高 672×672 像素图像，128K 文本上下文； 34B 模型：16.6 GB，保持相同分辨率与上下文。均经视觉指令微调，结合 1.3M 多模态示例，Apache-2.0 许可。二、关键性能指标任务基准 LLaVA 1.6-7B LLaVA 1.6-13B LLaVA 1.6-34B Gemini Pro 文本VQA VQAv2 accuracy 82.2% 83.5% 85.1% 83.0% 文本VQA TextVQA 65.7% 67.3% 69.5% 68.9% DocVQA val accuracy 72.8% 80.5% 82.1% 80.0% OCR accuracy 88.4% 91.2% 92.0% 90.7% Multimodal MMLU val accuracy 51.1% 59.8% 61.7% 59.4% Math-Vista accuracy 46.5% 54.2% 56.8% 53.0% （以上数据来源于 LLaVA-NeXT 报告，LLaVA 1.6 在多项指标上略低于 NeXT，但仍超越 Gemini Pro 若干基准）1 ...