@zhiqing研究了一个周末,跑通DFlash训练全流程 中发帖

现在可以训练任何模型的DFlash权重了,就是资源消耗极大 😆
 
 
Back to Top