@purr 在又一证据表明 Gemini 烂归烂但世界知识是真的没话说是真的大力出奇迹中发帖来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks

@purr 在又一证据表明 Gemini 烂归烂但世界知识是真的没话说是真的大力出奇迹中发帖

来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks 
让AI进行事实核查 并判断核查结果是否正确 
官方给的各种数据乱七八糟 所以我用raw data整理了下人能看懂的数据 
简单 但易懂 
数据集中包含以下模型 
gpt-5.4_verdict 
claude-opus-4-7_verdict 
gemini-3-pro_verdict 
gemini-3-retrieval_verdict 
sonar-pro_verdict 
包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading 
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重) 





gpt-5.4_verdict
claude-opus-4-7_verdict
gem...