欣 郁 (@user1164)DGX Spark 是不是被人低估了? 中发帖

我才意识到: 
1)能低精度计算,对推理速度至关重要! 
2)除了nvida以外,其他家的显卡对低精度计算的支持是多么地弱! 

事情是这样的: 
我最近在用我的4070tis 16g跑ideogram4(最新的开源图生图模型,conditional和unconditional模型nvfp4下5.5g),我怕爆显存于是就用nvfp4跑,发现速度奇慢。 
我很不解,问了gpt才知道:40系(Ada Lovelace系)居然不支持nvfp4下的计算!所以nvfp4对40系显卡而言仅仅是节省了显存,实际计算是: 
1)先反量化到bf16; 
2)再分层计算。 
所以速度很慢——很粗略地说等于花了“bf16的生图时间+反量化时间”。 
作为对比,我改用FP8跑(conditional和unconditional模型,FP8下 9.3g),comfyui可以动态加载显存于是不会爆显存,果然4070t...
 
 
Back to Top