@purr 在 又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹 中发帖
来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
让AI进行事实核查 并判断核查结果是否正确
官方给的各种数据乱七八糟 所以我用raw data整理了下人能看懂的数据
简单 但易懂
数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict
包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)
gpt-5.4_verdict
claude-opus-4-7_verdict
gem...