Nailao (@MaYiding) 在【开源自荐】OracleProto：过期预测题是废品？我们把它炼成了数据金矿，转化为大模型的预测训练语料中发帖[OracleProtoLogoHorizontal]

Nailao (@MaYiding) 在【开源自荐】OracleProto：过期预测题是废品？我们把它炼成了数据金矿，转化为大模型的预测训练语料中发帖

[OracleProtoLogoHorizontal] 
三句话概括我们做了什么


背景与挑战： LLM预测评估面临两难：实时测试易失效，回顾测试存在数据泄露。提示词无法建立真实的知识边界。 


架构和方法： OracleProto 框架结合模型知识截止与时间遮蔽，将历史事件严谨重构为具有时间边界的可复现的预测样本。 


实验的效果： 测试 9 个主流LLM 表明，OracleProto能有效区分了模型的预测质量、稳定性与成本效益，将泄露率降至 1\%，为模型对比、监督微调和强化学习提供了受控的信号源。 


 [Framework] 
开源仓库及论文


GitHub 仓库 


Hugging Face 数据库 


在线排行榜网站 


arXiv 论文 


详细介绍
Deepseek、GPT、Claude、Gemini 这些头部大模型拥有搜索、整合、推理和给出建议的能力，...