梁光毅 (@liangguangyi) 在 用 AI 处理 28 期完整期刊文献综述:MinerU MCP 与可恢复 Runner 改造记录 中发帖
前一版流程见这里:记一次使用agent在一小时内完整调研上百篇文献的工作流
本文记录的是后续工程化改造。
项目背景是 1999-2025 年共 28 期完整英文技术期刊,文章总量在百篇级。目标不是简单翻译全文,而是围绕某一长期主题建立索引、筛选相关文章、拆分文章级摘录,并继续做翻译和横向梳理。
第一版流程已经能跑通,但后续暴露出两个主要问题:
MinerU 本机运行慢,环境依赖重,Windows 下还会遇到编码、路径和依赖问题。
翻译阶段任务量大,长文需要分块,源文件更新后还要能定向重跑,不能靠人工记忆维护状态。
这次改造主要解决这两点。
MinerU 改为 MCP 调用
原先做法是本机直接调用 MinerU。这个方式适合单次测试,但不适合长期批处理。
主要问题有三个:
本机环境重,依赖变动后排查成本高。
转换耗时较长,中途异常后不容易判断是真失败,还是 Markdow...