HeyaoHua's Blog

Qwen3 系列模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with Qwen, 阿里云, MoE架构, 思维模式, Agent集成

核心结论： Qwen3 通过混合专家（MoE）与稠密（Dense）架构并行、思维模式切换与超长上下文（128K）支持的创新设计，实现了在编程、数学推理、多语言与 Agent 集成等场景下的顶级开源性能；但仍面临高资源需求、综合安全管控与领域知识深度等挑战。

一、模型概览

Qwen3 系列涵盖 0.6B 至 235B 参数的八个规模模型，分为稠密与 MoE 两类：

稠密模型：0.6B、1.7B、4B、8B、14B、32B，均支持 32K（小型）或 128K（大中型）上下文；
MoE 模型：30B-A3B（3B 激活）、235B-A22B（22B 激 …