LLaVA 1.6 模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with LLaVA, 多模态模型, 视觉理解, OCR, 视觉问答

核心结论: LLaVA 1.6 在视觉理解、OCR 与多模态对话方面进一步提升,通过支持高达 672×672 像素的高分辨率输入和改进的视觉指令微调数据,实现了对世界知识与逻辑推理的增强;适用于视觉问答、图文检索与多模态客服等场景,但在极大图像、视频理解与专业领域精准度上仍有提升空间。

一、模型概览

LLaVA(Large Language and Vision Assistant)1.6 基于 Vicuna 文本骨干与 CLIP 视觉编码器,采用 Q4_0 量化的 7B、13B、34B 三种规模变体:

  • 7B 及 …

Continue reading

Gemma 3 模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with Gemma, Google, 多模态模型, 长上下文, 轻量化部署

核心结论: Gemma 3 系列以多模态处理超长上下文极低资源消耗为特色,兼顾图像理解与文本生成;在视觉问答、文档理解、多语言翻译等任务上表现优异,但在高阶推理与专业领域深入度上略逊于大型专用模型,且需通过提示工程与检索补强事实准确性。

一、模型概述

Gemma 3 系列由 Google 基于 Gemini 技术研发,包含五种规模:

  • 0.27B、1B 参数:32K 文本上下文;
  • 4B、12B、27B 参数:128K 文本上下文、支持图像输入。

采用量化 …


Continue reading