机器之心报道
编辑:泽南
训练、推理性价比创新高。
大语言模型(LLM),正在进入 Next Level。
周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。
新模型立即在 Qwen.ai 上线,并上传了 HuggingFace。
新模型网页版:http://chat.qwen.ai/HuggingFace:http://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9dKaggle:http://www.kaggle.com/models/qwen-lm/qwen3-next-80b
Qwen3-Next 针对大模型在上下文长度扩展(Context Length Scaling)和参数量扩展(Total Parameter Scaling)的未来趋势而设计。通义团队表示,其模型结构相较 4 月底推出的 Qwen3 的 MoE 模型新增了多种技术并进行了核心改进,包括混合注意力机制、高稀疏度 MoE 结构、一系列提升训练稳定性的优化,以及提升推理效率的多 token 预测(MTP)机制等。
模型结构示意图:
通义团队介绍了新架构使用的一些机制。
混合架构:Gated DeltaNet + Gated Attention
线性注意力打破了标准注意力的二次复杂度,在处理长上下文时有着更高的效率。通义团队发现,单纯使用线性注意力或标准注意力均存在局限:前者在长序列建模上效率高但召回能力弱,后者计算开销大、推理不友好。
通过系统实验,人们发现 Gated DeltaNet 相比常用的滑动窗口注意力(Sliding Window Attention)和 Mamba2 有更强的上下文学习(in-context learning)能力,并在 3:1 的混合比例(即 75% 层使用 Gated DeltaNet,25% 层保留标准注意力)下能一致超过超越单一架构,实现性能与效率的双重优化。
在保留的标准注意力中,通义进一步引入多项增强设计:
(1)沿用先前工作中的输出门控机制,缓解注意力中的低秩问题;
(2)将单个注意力头维度从 128 扩展至 256;
(3)仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。
极致稀疏 MoE:仅激活 3.7% 参数
Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架构,总参数量达 80B,每次推理仅激活约 3B 参数。实验表明,在使用全局负载均衡后,当激活专家固定时,持续增加专家总参数可带来训练 loss 的稳定下降。
相比 Qwen3 MoE 的 128 个总专家和 8 个路由专家,Qwen3-Next 扩展到了 512 总专家,10 路由专家与 1 共享专家的组合,在不牺牲效果的前提下最大化资源利用率。
训练稳定性友好设计
通义团队发现, 注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。Qwen3 采用了 QK-Norm,部分层的 norm weight 值会出现异常高的情况。为缓解这一现象,进一步提高模型的稳定性,通义在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基础上对 norm weight 施加 weight decay,以避免权重无界增长。
通义还在初始化时归一化了 MoE router 的参数,确保每个 expert 在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。
Multi-Token Prediction
Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 机制,既得到了 Speculative Decoding 接受率较高的 MTP 模块,又提升了主干本身的综合性能。Qwen3-Next 还特别优化了 MTP 多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的 Speculative Decoding 接受率。
通义千问大模型负责人林俊旸在 X 上分享了新一代模型开发的细节。他表示团队已经在混合模型和线性注意力机制上进行了大约一年的实验。新的解决方案应该足够稳定可靠,能够应对超长上下文。
Gated DeltaNet 加混合是经过大量尝试和错误才实现的,而 Gated Attention 的实现就像是免费的午餐,可以获得额外好处。
得益于创新的混合模型架构,Qwen3-Next 在推理效率方面表现出显著优势。与 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在预填充(prefill)阶段展现出卓越的吞吐能力:在 4k tokens 的上下文长度下,吞吐量接近前者的七倍;当上下文长度超过 32k 时,吞吐提升更是达到十倍以上。
在解码(decode)阶段,该模型同样表现优异 —— 在 4k 上下文下实现近四倍的吞吐提升,而在超过 32k 的长上下文场景中,仍能保持十倍以上的吞吐优势。
基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800 亿参数(仅激活 30 亿参数),实现了与 Qwen3-32B dense 模型相近甚至略好的性能,同时训练成本(GPU hours) 仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。
通义团队开源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)两款模型。新模型解决了混合注意力机制 + 高稀疏度 MoE 架构在强化学习训练中长期存在的稳定性与效率难题,实现了 RL 训练效率与最终效果的双重提升。
在编程(LiveCodeBench v6)、人类偏好对齐 (Arena-Hard v2) 以及综合性能力 (LiveBench) 评测中,Qwen3-Next-Instruct 表现甚至超过了千问的开源旗舰模型,并在包含通用知识(SuperGPQA)、数学推理(AIME25)等核心测评中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 则全面超越了 Gemini2.5-Flash-Thinking,在数学推理 AIME25 评测中获得了 87.8 分。而达到如此高水平的模型性能,仅需激活 Qwen3-Next 总参数 80B 中的 3B。
目前,Qwen3-Next 模型也已经在很多第三方平台中上线。
使用新模型在 anycoder 中的 vibe coding 示例:
关于奶茶视频APP|版权声明| 违法和不良信息举报电话:010-84151598 | 网络敲诈和有偿删帖举报电话:010-84151598
Copyright © 2008-2024 by {当前域名}. all rights reserved