@yacc疑似有人猜出了Mythos(风味?)架构并开源 中发帖

https://x.com/KyeGomezB/status/2045659150340723107 


目前GitHub上已经2k star了,具体细节在X上有说明。作者也强调了属于理论探讨,仅供参考(不过还是起了OpenMythos的名字)。 
按我浅显的理解,传统思路是堆层数,参数爆炸,作者考虑可以把一些层重复使用,最多能循环16次。然后结合MoE的方案,每次循环激活的专家不一样,那就避免了简单重复每次循环到一样的东西。(但是这样实际训练算力并没有节省多少吧,比如1T的参数多循环几次肯定算力也要翻几倍了,可能也就是部署推理的时候省点显存?) 
刚好隔壁看到有佬说Opus 4.6是5T参数,4.7就阉割到只有1T,我怀疑是不是就用这个思路,1T的参数量循环10次甚至9次,发现有些性能指标比5T的强,就放出来作为4.7。 
然后他们那个吹上天的Mythos说不定就是拿5T参数的模型循环...
 
 
Back to Top