Bunn (@BunnHack) 在 CAISI发布评估报告：DeepSeek V4 Pro成中国最强模型，但仍落后美国前沿水平约8个月中发帖人工智能标准与创新中心（CAISI）近日完成了对开源人工智能模型 DeepSeek V4 Pro的全面评估

Bunn (@BunnHack) 在 CAISI发布评估报告：DeepSeek V4 Pro成中国最强模型，但仍落后美国前沿水平约8个月中发帖

人工智能标准与创新中心（CAISI）近日完成了对开源人工智能模型 DeepSeek V4 Pro的全面评估。报告指出，尽管DeepSeek V4展示了卓越的性能，并在多项指标上大幅领先于国内同类模型，但其综合能力相较于美国最前沿技术仍有约8个月的代差。 
CAISI的IRT（项目反应理论）模型显示，DeepSeek V4的综合Elo得分约为800分。这一水平与美国约8个月前发布的GPT-5性能相当，但明显落后于当前的领先模型GPT-5.5（Elo 1260）和GPT-5.4（Elo 1070）。 
尽管DeepSeek官方报告称其性能已追平GPT-5.4，但CAISI在非公开基准测试（如ARC-AGI-2半私有数据集、PortBench）中的评估显示，DeepSeek V4在抽象推理和复杂软件工程任务上表现疲软，落后于美国顶尖机型。 
在成本效益方面，DeepSeek V4表现亮眼。在与功...