怒 天 (@user1703)感觉市面上没有特别贴近生活的模型水平测试,遂设计了一个 中发帖

设计了一个日常使用的大模型测试,928题,准备开测 




1幻觉







低质量提示词误导


是否会被错误事实的提示词误导


谄媚倾向


是否会因为谄媚承认错误的事实


虚构内容





过度夸大


对事实过度夸大或过于依赖确定的研究结果








2搜索质量





网感


对互联网热词、小众圈子、黑话的理解


对事实的搜索


检索客观事实、学术知识或实时新闻的准确度


信源去噪能力


是否能自动过滤营销号、广告,优先提取权威来源信息


小众信息搜索能力


非主流平台 Thread、专业医学期刊)中的高质量个例、深度研究或非标准化解决方案的检索与整合能力。


多项技术横向对比


测试模型对处于快速更迭期的前沿技术进行实时检索并生成深度对比报告的能力








3上下文衰减





上下文衰减


基础的长文本记忆能力


非标准压...
 
 
Back to Top