Nailao (@MaYiding)【开源自荐】OracleProto:过期预测题是废品?我们把它炼成了数据金矿,转化为大模型的预测训练语料 中发帖

[OracleProtoLogoHorizontal] 
三句话概括我们做了什么


背景与挑战: LLM预测评估面临两难:实时测试易失效,回顾测试存在数据泄露。提示词无法建立真实的知识边界。 


架构和方法: OracleProto 框架结合模型知识截止与时间遮蔽,将历史事件严谨重构为具有时间边界的可复现的预测样本。 


实验的效果: 测试 9 个主流LLM 表明,OracleProto能有效区分了模型的预测质量、稳定性与成本效益,将泄露率降至 1\%,为模型对比、监督微调和强化学习提供了受控的信号源。 


 [Framework] 
开源仓库及论文


GitHub 仓库 


Hugging Face 数据库 


在线排行榜网站 


arXiv 论文 


详细介绍
Deepseek、GPT、Claude、Gemini 这些头部大模型拥有搜索、整合、推理和给出建议的能力,...
 
 
Back to Top