Phi-3 系列模型详解

核心结论: Phi-3 系列以轻量化与高效推理为核心,通过 3B(Mini)与 14B(Medium)两个规模覆盖边缘到中型部署场景,在数学与逻辑推理、长上下文理解与代码辅助任务上表现优异;其多阶段训练(合成+公开语料+DPO 微调)确保指令遵循与安全性,但在多语言与专业领域知识覆盖方面尚需检索增强与微调补强。 一、模型概览 Phi-3 系列包括: Phi-3 Mini(3.8B 参数,4k/128K 上下文,2.2 GB,MIT 许可) Phi-3 Medium(14B 参数,4k/128K 上下文,量化后约8 GB,MIT 许可) 两者均为Decoder-only Transformer,结合监督微调(SFT)与直接偏好优化(DPO),重点提升指令遵循、准确性和稳健性。模型基于 3.3 T tokens 混合数据集训练,截止日期 2023 年 10 月。 二、关键性能指标 基准 Phi-3 Mini (3B) Phi-3 Medium (14B) 参考对比 MMLU 5-shot 75.2% 86.7% Gemini 1.0 Pro<85% GSM8K CoT 8-shot 68.4% 82.1% Phi-3 Mini ~24B 模型 MATH 4-shot 42.3% 58.9% 同量级闭源 CodeGen MBPP 54.7% 68.2% CodeLlama 7B 60% Long Context QA 79.5% (128K) 85.4% (128K) 同量级模型 70–80% Commonsense Reasoning (HellaSwag) 80.1% 89.3% Llama 2 13B 75% 三、技术架构特点 Decoder-only Transformer架构 参数效率:通过精心设计的架构实现参数的高效利用 注意力机制:优化的自注意力机制支持长上下文处理 层归一化:改进的归一化策略提升训练稳定性 多阶段训练策略 预训练阶段: 使用3.3T tokens的高质量混合数据集 包含合成数据和公开语料 截止时间为2023年10月 ...

2025-09-08 · 3 分钟 · 583 字 · heyaohua

Mistral 7B 模型详解

核心结论: Mistral 7B 以其高效架构和卓越性能著称:在"成本/性能"比上相当于三倍规模的 Llama 2,实现对话、推理与代码生成等多场景的优异表现;开源 Apache-2.0 许可与原生函数调用支持,使其成为本地化与云端部署的首选轻量级模型。 一、模型概述 Mistral 7B 采用**Grouped-Query Attention (GQA)与Sliding Window Attention (SWA)**相结合的架构,参数量约7.3B,经 Q4_0 量化后模型大小约4.1 GB,支持标准指令(instruct)与文本补全(text)两种形式,并具备本地化函数调用能力。1 二、关键性能指标 常识推理:HellaSwag、Winogrande、PIQA 等零 shot 平均得分超过 80%,整体推理水平优于 Llama 2 13B,媲美 Llama 1 34B。1 世界知识:NaturalQuestions 与 TriviaQA 5 shot 平均 68.2%,与 Llama 2 13B 持平。1 阅读理解:BoolQ、QuAC 等零 shot 平均 79.4%,超过同量级竞品。1 数学:GSM8K 8 shot(maj@8)+ MATH 4 shot(maj@4)综合得分 72.1%,等效于 24B 参数模型。1 代码生成:Humaneval 0 shot + MBPP 3 shot 平均 57.8%,接近 CodeLlama 7B 水平。1 聚合基准:MMLU 5 shot 85.3%、BBH 3 shot 81.7%、AGI Eval 3-5 shot 78.9%。1 推理效率:在推理/成本平面上,相当于 Llama 2 三倍规模模型;预填充与生成峰值吞吐较 Llama 2 13B 提升约 2.5×。1 三、技术架构特点 Grouped-Query Attention (GQA) 内存优化:通过共享键值对减少内存占用 计算效率:在保持性能的同时降低计算复杂度 长序列支持:更好地处理长文本输入 Sliding Window Attention (SWA) 局部注意力:关注局部上下文窗口内的信息 计算复杂度:线性复杂度而非二次复杂度 长文档处理:有效处理超长文档和对话 架构优势 参数效率:7.3B参数实现更大模型的性能 推理速度:显著提升推理吞吐量 内存友好:降低部署硬件要求 四、优势与不足 主要优势 高效架构: GQA+SWA 实现长序列处理与低延迟 推理效率相当于三倍规模的Llama 2 预填充和生成吞吐量提升2.5倍 ...

2025-09-08 · 3 分钟 · 634 字 · heyaohua

Llama 3.2 系列模型详解

核心结论: Llama 3.2 通过 1B/3B 的轻量级文本模型及 11B/90B 的视觉多模态模型组合,实现了在边缘设备与视觉理解场景的出色性能;同时保持 128K 超长上下文,适用于对话、摘要、检索与图文分析任务。主要不足在于图像分辨率与输出长度限制,以及需要额外整合系统级安全与治理机制。 一、模型概览 Llama 3.2 系列包含: 文本模型:1B 与 3B 参数,优化用于多语言对话、指令跟随、摘要与工具调用; 视觉模型:11B 与 90B 参数,可处理文本+图像输入,用于文档理解、图像问答与视觉推理。 所有模型均支持 128K token 上下文,采用 Meta 提供的 Llama Guard、Prompt Guard 与 CodeShield 参考实现保障安全部署。12 二、关键性能指标 1. 文本模型(1B/3B) MMLU(5-shot):1B 49.3%,3B 63.4% (基于 bf16 指令调优);1 GSM8K CoT (8-shot maj@1):1B 44.4%,3B 77.7% (bf16 模式);1 IFEval(指令跟随):1B 59.5%,3B 77.4% (bf16 模式);1 ARC-C(零-shot逻辑推理):1B 59.4%,3B 78.6% (bf16 模式);1 TLDR9+ 摘要 (1-shot):1B 16.8 R-L,3B 19.0 R-L。1 2. 视觉模型(11B/90B) DocVQA (val):11B 72.8%,90B 85.6% (文档问答);2 ChartQA:11B 69.5%,90B 85.5% (图表分析);2 VQAv2:11B 72.1%,90B 84.1% (视觉问答);2 MMMU (val):11B 41.7%,90B 60.3% (多模态理解);2 MathVista:11B 51.5%,90B 57.3% (数学视觉推理);2 三、技术架构特点 轻量化设计 参数效率:1B/3B模型在保持性能的同时大幅降低资源需求 量化优化:支持INT4/INT8量化,进一步减少内存占用 边缘友好:专门针对移动设备和边缘计算优化 多模态融合 视觉编码器:高效的图像特征提取和处理 跨模态注意力:文本和图像信息的深度融合 统一架构:文本和视觉模型共享相似的基础架构 长上下文支持 128K上下文窗口:支持超长文档和对话处理 高效注意力:优化的长序列处理机制 内存管理:智能的上下文缓存和管理策略 四、模型规格对比 模型类型 参数量 模型大小 上下文长度 特殊能力 推荐用途 Llama 3.2-1B 1B ~2GB 128K 轻量对话 移动应用 Llama 3.2-3B 3B ~6GB 128K 指令跟随 边缘设备 Llama 3.2-11B-Vision 11B ~22GB 128K 视觉理解 文档分析 Llama 3.2-90B-Vision 90B ~180GB 128K 高级视觉 专业应用 五、部署与使用 硬件要求 轻量级文本模型(1B/3B) Llama 3.2-1B ...

2025-09-08 · 3 分钟 · 565 字 · heyaohua