@xiaomao 在来一个模型横向测评，这次不测coding，测一下是通用agent能力中发帖自己项目实际跑的测试，agent基座是pi sdk

@xiaomao 在来一个模型横向测评，这次不测coding，测一下是通用agent能力中发帖

自己项目实际跑的测试，agent基座是pi sdk 
一个单次分析规划子agent，涉及大量工具调用形成结构化文档 
实际的pi workspace和上游文件，结构分是测试文件自己生成，内容分是gpt5.5逐个读取生成内容打分。 
 [image] 
测试文件prompt：和打分脚本 
 [image] 
全部由codex自己策划实施。 
归档.zip (24.3 KB)