Nailao (@MaYiding) 在 【开源自荐】OracleProto:过期预测题是废品?我们把它炼成了数据金矿,转化为大模型的预测训练语料 中发帖
[OracleProtoLogoHorizontal]
三句话概括我们做了什么
背景与挑战: LLM预测评估面临两难:实时测试易失效,回顾测试存在数据泄露。提示词无法建立真实的知识边界。
架构和方法: OracleProto 框架结合模型知识截止与时间遮蔽,将历史事件严谨重构为具有时间边界的可复现的预测样本。
实验的效果: 测试 9 个主流LLM 表明,OracleProto能有效区分了模型的预测质量、稳定性与成本效益,将泄露率降至 1\%,为模型对比、监督微调和强化学习提供了受控的信号源。
[Framework]
开源仓库及论文
GitHub 仓库
Hugging Face 数据库
在线排行榜网站
arXiv 论文
详细介绍
Deepseek、GPT、Claude、Gemini 这些头部大模型拥有搜索、整合、推理和给出建议的能力,...