训练成本大降超九成!阿里开源下一代基础模型架构 引入混合注意力机制
9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。
在核心技术方面,新模型采用全球首创混合架构,75%用Gated DeltaNet(线性注意力),25%用原创Gated Attention(门控注意力),总参数80B只需激活3B,就可以在性能上媲美Qwen3旗舰版235B模型,算力利用率约为3.7%,帮助用户“极致省钱”。(澎湃新闻)
表情