啁啾 (@Chirp)DeepSeek V4 Pro带来的惊喜 中发帖

这几天让 GPT 5.5 xhigh 排查我的模型训练代码,想定位 fp8 训练下导致 NaN 的原因 
一直以来很信任 GPT,做事严谨认真几乎不会出错。这次排错也是,很耐心地和 GPT 交流想法思路。但时间一长,突然感觉很不舒服 
 [image] 
 [image] 
我和 GPT 一致认同需要定位出问题的网络节点,甚至是已经定位到具体网络层了。但 GPT 像着了魔一样要么反复验证这个结论,要么建议我关掉整个 fp8,就是没针对问题思考方案做修复。等我反应过来时,一整天时间都过去了 
尝试换上 GLM 5.1。也能定位到问题位置,但它紧接着做了一个非常耗时的实验,一不注意把我五小时上限吃完了 
 [image] 
然后是尝试 DeepSeek V4 Pro Max。定位错误,思考方案,插入代码一气呵成,最后工具触发失败整段垮掉 
不过问题真解决了,一个很优雅的scale相乘,没有Na...
 
 
Back to Top