啁啾 (@Chirp) 在 DeepSeek V4 Pro带来的惊喜中发帖这几天让 GPT 5.5 xhigh 排查我的模型训练代码，想定位 fp8 训练下导致 NaN 的原因

啁啾 (@Chirp) 在 DeepSeek V4 Pro带来的惊喜中发帖

这几天让 GPT 5.5 xhigh 排查我的模型训练代码，想定位 fp8 训练下导致 NaN 的原因 
一直以来很信任 GPT，做事严谨认真几乎不会出错。这次排错也是，很耐心地和 GPT 交流想法思路。但时间一长，突然感觉很不舒服 
 [image] 
 [image] 
我和 GPT 一致认同需要定位出问题的网络节点，甚至是已经定位到具体网络层了。但 GPT 像着了魔一样要么反复验证这个结论，要么建议我关掉整个 fp8，就是没针对问题思考方案做修复。等我反应过来时，一整天时间都过去了 
尝试换上 GLM 5.1。也能定位到问题位置，但它紧接着做了一个非常耗时的实验，一不注意把我五小时上限吃完了 
 [image] 
然后是尝试 DeepSeek V4 Pro Max。定位错误，思考方案，插入代码一气呵成，最后工具触发失败整段垮掉 
不过问题真解决了，一个很优雅的scale相乘，没有Na...