柠萌 (@NINGMENG)不懂就问,moe架构和dense架构,是否moe就是具有天生劣势 中发帖

A​➗是用的dense架构,全激活,大D老师用的moe,moe每次只激活一部分参数,是不是就会比全激活的要差一些
 
 
Back to Top