训练成本大降超九成！阿里开源下一代基础模型架构引入混合注意力机制

2025-09-15 12:01 7624

9月12日，阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B，包含两个版本：更擅长理解和执行指令的指令（Insctruct）模型，以及更擅长多步推理和深度思考的推理（Thinking）模型。

在核心技术方面，新模型采用全球首创混合架构，75%用Gated DeltaNet（线性注意力），25%用原创Gated Attention（门控注意力），总参数80B只需激活3B，就可以在性能上媲美Qwen3旗舰版235B模型，算力利用率约为3.7%，帮助用户“极致省钱”。（澎湃新闻）