训练成本大降超九成!阿里开源下一代基础模型架构 引入混合注意力机制

2025-09-15 12:01 7265

9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。


在核心技术方面,新模型采用全球首创混合架构,75%用Gated DeltaNet(线性注意力),25%用原创Gated Attention(门控注意力),总参数80B只需激活3B,就可以在性能上媲美Qwen3旗舰版235B模型,算力利用率约为3.7%,帮助用户“极致省钱”。(澎湃新闻)


2
标签: 阿里 下一代 注意力 
发表评论
同步到贸金圈表情
最新评论

线上课程推荐

火热 45节精品课,全景解读供应链金融科技风控与数据风控的深度剖析

  • 精品
  • 上架时间:2020.08.29 17:33
  • 共 45 课时

火热 融资租赁42节精品课,获客、风控、资金从入门到精通

  • 精品
  • 上架时间:2020.10.11 10:35
  • 共 42 课时
7日热点新闻
热点栏目
贸金说图
专家投稿
贸金招聘
贸金微博
贸金书店

福费廷二级市场

贸金投融 (投融资信息平台)

活动

研习社

消息

我的

贸金书城

贸金公众号

贸金APP