Qwen3 系列模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with Qwen, 阿里云, MoE架构, 思维模式, Agent集成

核心结论: Qwen3 通过混合专家(MoE)与稠密(Dense)架构并行思维模式切换超长上下文(128K)支持的创新设计,实现了在编程、数学推理、多语言与 Agent 集成等场景下的顶级开源性能;但仍面临高资源需求综合安全管控领域知识深度等挑战。

一、模型概览

Qwen3 系列涵盖 0.6B 至 235B 参数的八个规模模型,分为稠密与 MoE 两类:

  • 稠密模型:0.6B、1.7B、4B、8B、14B、32B,均支持 32K(小型)或 128K(大中型)上下文;
  • MoE 模型:30B-A3B(3B 激活)、235B-A22B(22B 激 …

Continue reading

GPT-OSS 模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with GPT-OSS, 开源模型, MoE架构, 代码生成, 长上下文

核心结论: GPT-OSS 系列模型通过开源权重和本地部署能力,实现了在代码生成与复杂推理任务上的竞品级表现,并借助 128K 长上下文窗口,显著提升了长文本处理能力;但其通用知识覆盖多语言理解较顶尖闭源大模型略逊,同时需要开发者自行强化安全与监控机制以防滥用。

一、模型概述

GPT-OSS 包括两种规模:

  • gpt-oss-120B:约1170亿参数,5.1B 活跃参数/层,量化后模型体积≈60.8 GiB,可跑满128K上下文;
  • gpt-oss-20B:约209 亿参数,3.6B 活跃参数 …

Continue reading

DeepSeek-R1 模型详解

Posted on Mon 08 September 2025 in 人工智能 • Tagged with DeepSeek, 大语言模型, 强化学习, MoE架构, 推理能力

DeepSeek-R1采用MoE架构,总参数671B,通过强化学习实现强大推理能力,在数学、编程等任务上媲美闭源模型。详解其技术架构、性能表现及应用场景。


Continue reading