Phi-3 | heyaohua's Blog

核心结论： Phi-3 系列以轻量化与高效推理为核心，通过 3B（Mini）与 14B（Medium）两个规模覆盖边缘到中型部署场景，在数学与逻辑推理、长上下文理解与代码辅助任务上表现优异；其多阶段训练（合成＋公开语料＋DPO 微调）确保指令遵循与安全性，但在多语言与专业领域知识覆盖方面尚需检索增强与微调补强。一、模型概览 Phi-3 系列包括： Phi-3 Mini（3.8B 参数，4k/128K 上下文，2.2 GB，MIT 许可） Phi-3 Medium（14B 参数，4k/128K 上下文，量化后约8 GB，MIT 许可）两者均为Decoder-only Transformer，结合监督微调（SFT）与直接偏好优化（DPO），重点提升指令遵循、准确性和稳健性。模型基于 3.3 T tokens 混合数据集训练，截止日期 2023 年 10 月。二、关键性能指标基准 Phi-3 Mini (3B) Phi-3 Medium (14B) 参考对比 MMLU 5-shot 75.2% 86.7% Gemini 1.0 Pro<85% GSM8K CoT 8-shot 68.4% 82.1% Phi-3 Mini ~24B 模型 MATH 4-shot 42.3% 58.9% 同量级闭源 CodeGen MBPP 54.7% 68.2% CodeLlama 7B 60% Long Context QA 79.5% (128K) 85.4% (128K) 同量级模型 70–80% Commonsense Reasoning (HellaSwag) 80.1% 89.3% Llama 2 13B 75% 三、技术架构特点 Decoder-only Transformer架构参数效率：通过精心设计的架构实现参数的高效利用注意力机制：优化的自注意力机制支持长上下文处理层归一化：改进的归一化策略提升训练稳定性多阶段训练策略预训练阶段：使用3.3T tokens的高质量混合数据集包含合成数据和公开语料截止时间为2023年10月 ...