梁光毅 (@liangguangyi) 在记一次使用agent在一小时内完整调研上百篇文献的工作流中发帖用 AI 处理三十卷期刊文献综述的工程实践

梁光毅 (@liangguangyi) 在记一次使用agent在一小时内完整调研上百篇文献的工作流中发帖

用 AI 处理三十卷期刊文献综述的工程实践
老板节前扔过来三十卷期刊，时间跨度从 1990 年到现在，每卷约十几篇文献，节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量，只能借助 AI 辅助筛选和梳理。但真正动手之前，有两个硬问题必须先解决。 
两个核心难点
上下文长度 
一次性把所有文献塞进去显然行不通。单纯依靠上下文工程（比如在 system prompt 里约束每轮清空上下文）也很不稳定——经过我的测试，哪怕只是串行读取，进行几轮之后 agent 就会忘掉之前的约束。状态必须外置。 
加密 PDF 的识别质量 
这批期刊全是加密 PDF，既无法直接提取文本，又普遍采用双栏排版。AI 对双栏布局的识别本来就不稳定，遇到表格或多图交叉引用时幻觉尤其严重。直接扔给网页版 GPT 测试，结果很不理想。 
预处理：MinerU 转换 Markdown
第一步用 Min...