多模态 | heyaohua's Blog

核心结论： Llama 3.2 通过 1B/3B 的轻量级文本模型及 11B/90B 的视觉多模态模型组合，实现了在边缘设备与视觉理解场景的出色性能；同时保持 128K 超长上下文，适用于对话、摘要、检索与图文分析任务。主要不足在于图像分辨率与输出长度限制，以及需要额外整合系统级安全与治理机制。一、模型概览 Llama 3.2 系列包含：文本模型：1B 与 3B 参数，优化用于多语言对话、指令跟随、摘要与工具调用；视觉模型：11B 与 90B 参数，可处理文本＋图像输入，用于文档理解、图像问答与视觉推理。所有模型均支持 128K token 上下文，采用 Meta 提供的 Llama Guard、Prompt Guard 与 CodeShield 参考实现保障安全部署。12 二、关键性能指标 1. 文本模型（1B/3B） MMLU（5-shot）：1B 49.3%，3B 63.4% （基于 bf16 指令调优）；1 GSM8K CoT (8-shot maj@1)：1B 44.4%，3B 77.7% （bf16 模式）；1 IFEval（指令跟随）：1B 59.5%，3B 77.4% （bf16 模式）；1 ARC-C（零-shot逻辑推理）：1B 59.4%，3B 78.6% （bf16 模式）；1 TLDR9+ 摘要 (1-shot)：1B 16.8 R-L，3B 19.0 R-L。1 2. 视觉模型（11B/90B） DocVQA (val)：11B 72.8%，90B 85.6% （文档问答）；2 ChartQA：11B 69.5%，90B 85.5% （图表分析）；2 VQAv2：11B 72.1%，90B 84.1% （视觉问答）；2 MMMU (val)：11B 41.7%，90B 60.3% （多模态理解）；2 MathVista：11B 51.5%，90B 57.3% （数学视觉推理）；2 三、技术架构特点轻量化设计参数效率：1B/3B模型在保持性能的同时大幅降低资源需求量化优化：支持INT4/INT8量化，进一步减少内存占用边缘友好：专门针对移动设备和边缘计算优化多模态融合视觉编码器：高效的图像特征提取和处理跨模态注意力：文本和图像信息的深度融合统一架构：文本和视觉模型共享相似的基础架构长上下文支持 128K上下文窗口：支持超长文档和对话处理高效注意力：优化的长序列处理机制内存管理：智能的上下文缓存和管理策略四、模型规格对比模型类型参数量模型大小上下文长度特殊能力推荐用途 Llama 3.2-1B 1B ~2GB 128K 轻量对话移动应用 Llama 3.2-3B 3B ~6GB 128K 指令跟随边缘设备 Llama 3.2-11B-Vision 11B ~22GB 128K 视觉理解文档分析 Llama 3.2-90B-Vision 90B ~180GB 128K 高级视觉专业应用五、部署与使用硬件要求轻量级文本模型（1B/3B） Llama 3.2-1B ...