LLaVA 1.6 模型详解
Posted on Mon 08 September 2025 in 人工智能 • Tagged with LLaVA, 多模态模型, 视觉理解, OCR, 视觉问答
核心结论: LLaVA 1.6 在视觉理解、OCR 与多模态对话方面进一步提升,通过支持高达 672×672 像素的高分辨率输入和改进的视觉指令微调数据,实现了对世界知识与逻辑推理的增强;适用于视觉问答、图文检索与多模态客服等场景,但在极大图像、视频理解与专业领域精准度上仍有提升空间。
一、模型概览
LLaVA(Large Language and Vision Assistant)1.6 基于 Vicuna 文本骨干与 CLIP 视觉编码器,采用 Q4_0 量化的 7B、13B、34B 三种规模变体:
- 7B 及 …
Continue reading