Bunn (@BunnHack)CAISI发布评估报告:DeepSeek V4 Pro成中国最强模型,但仍落后美国前沿水平约8个月 中发帖

人工智能标准与创新中心(CAISI)近日完成了对开源人工智能模型 DeepSeek V4 Pro的全面评估。报告指出,尽管DeepSeek V4展示了卓越的性能,并在多项指标上大幅领先于国内同类模型,但其综合能力相较于美国最前沿技术仍有约8个月的代差。 
CAISI的IRT(项目反应理论)模型显示,DeepSeek V4的综合Elo得分约为800分。这一水平与美国约8个月前发布的GPT-5性能相当,但明显落后于当前的领先模型GPT-5.5(Elo 1260)和GPT-5.4(Elo 1070)。 
尽管DeepSeek官方报告称其性能已追平GPT-5.4,但CAISI在非公开基准测试(如ARC-AGI-2半私有数据集、PortBench)中的评估显示,DeepSeek V4在抽象推理和复杂软件工程任务上表现疲软,落后于美国顶尖机型。 
在成本效益方面,DeepSeek V4表现亮眼。在与功...
 
 
Back to Top