怒 天 (@user1703) 在 感觉市面上没有特别贴近生活的模型水平测试,遂设计了一个 中发帖
设计了一个日常使用的大模型测试,9类28题,准备开测
1幻觉
低质量提示词误导
是否会被错误事实的提示词误导
谄媚倾向
是否会因为谄媚承认错误的事实
虚构内容
过度夸大
对事实过度夸大或过于依赖确定的研究结果
2搜索质量
网感
对互联网热词、小众圈子、黑话的理解
对事实的搜索
检索客观事实、学术知识或实时新闻的准确度
信源去噪能力
是否能自动过滤营销号、广告,优先提取权威来源信息
小众信息搜索能力
非主流平台 Thread、专业医学期刊)中的高质量个例、深度研究或非标准化解决方案的检索与整合能力。
多项技术横向对比
测试模型对处于快速更迭期的前沿技术进行实时检索并生成深度对比报告的能力
3上下文衰减
上下文衰减
基础的长文本记忆能力
非标准压...