Qwen3 系列模型详解

核心结论: Qwen3 通过混合专家(MoE)与稠密(Dense)架构并行、思维模式切换与超长上下文(128K)支持的创新设计,实现了在编程、数学推理、多语言与 Agent 集成等场景下的顶级开源性能;但仍面临高资源需求、综合安全管控与领域知识深度等挑战。 一、模型概览 Qwen3 系列涵盖 0.6B 至 235B 参数的八个规模模型,分为稠密与 MoE 两类: 稠密模型:0.6B、1.7B、4B、8B、14B、32B,均支持 32K(小型)或 128K(大中型)上下文; MoE 模型:30B-A3B(3B 激活)、235B-A22B(22B 激活),皆支持 128K 上下文。 全部模型采用 Apache-2.0 许可,支持本地与云端部署,以及思维模式(Thinking)与非思维模式切换。1 二、关键性能指标 1. 编程与工具集成 Codeforces Elo:Qwen3-235B 达2785,领先多款开源模型;Qwen3-30B 达2550,优于多数同量级模型。1 LiveCodeBench v5 Pass@1:Qwen3-235B 70.2%,Qwen3-30B 61.8%,结合思维模式显著提升高阶编码能力。1 函数调用与 Agent 集成:原生支持 MPC(Model Context Protocol)与丰富函数调用,可构建复杂自动化 Agent 系统。2 2. 数学与逻辑推理 AIME Pass@1:Qwen3-235B 65.3%,落后于 DeepSeek-R1 与 o4-mini,但显著超越多数稠密模型; MATH 4-shot:Qwen3-27B(稠密)50.0%,Qwen3-235B-A22B 68.7%; GPQA Diamond:Qwen3-235B 78.4%,与顶级闭源相近。1 3. 多语言与通用能力 MMLU:Qwen3-235B 88.4%,Qwen3-32B 85.2%,在通用知识方面表现优异 多语言支持:在中文、英文、日文、韩文等多种语言上都有良好表现 长上下文理解:128K上下文窗口支持复杂文档分析 三、技术架构特点 混合专家(MoE)架构 参数效率: 235B总参数,仅激活22B参数 30B总参数,仅激活3B参数 实现大模型能力与推理效率的平衡 ...

2025-09-08 · 4 分钟 · 716 字 · heyaohua