@stevessr 在 Nemotron 3 Super: 一个开源的 Hybrid Mamba-Transformer MoE 模型 | NVIDIA 中发帖
[!quote]+
AI Agent 系统需要具有专业深度的模型,以自主解决密集的技术问题。它们必须擅长推理、编码和长语境分析,同时保持足够的效率,以便大规模持续运行。
今天,我们发布了 Nemotron 3 Super,以解决这些局限性。新的超级型号总容量为 120B,有源参数为 12B,可为软件开发和网络安全分流等复杂的多代理应用提供最高的计算效率和精度。该型号是继 12 月份推出 Nemotron 3 Nano 之后的又一款产品。
[!check]+ 突出点
Latent MoE 通过在词块到达专家之前对其进行压缩,以相同的推理成本调用 4 倍的专家。
Multi-token prediction (MTP) 在一次前向传递中预测多个未来标记,大大缩短了长序列的生成时间,并实现了内置推测解码。
Hybrid Mamba-Transformer 将用于提高序列效率的...