Bunn (@BunnHack) 在 SILX AI 正式发布 Quasar-Preview:18B MoE 架构的早期预览版 拥有5M上下文长度 中发帖
今日,SILX AI 宣布推出其 Quasar 基础模型系列的首个公开版本——Quasar-Preview。
Quasar-Preview 并非旨在与当前顶尖模型“刷榜”竞争,而是一个用于验证和探索前沿架构的奠基之作。它的主要技术规格包括:采用约 18B 总参数的混合专家(MoE)架构,其中激活参数(Active Parameters)仅为 2B 级别,保持了极高的推理效率。配置了实验性的 500万(5M)Token 上下文窗口,采用 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法,专为未来的基于内存的系统而设计。模型基于 Loop Transformer 和 Quasar 混合注意力构建,内部包含了 Quasar、Raven 和 GLA 混合层,并结合了稀疏 MoE 路由技术。
目前训练所用的 Token 数量在 1T 到 1.5T 之间(其中长上下文扩展路径目前接...