@wszqkzqkQt Web Extractor:易于部署的轻量级跨平台网页内容提取工具 中发帖

目前给 LLM 平台提供网页提取或者搜索功能的 API 一般依赖于 Playwright 或 Puppeteer 等技术。这些技术十分强大,能够完美处理动态网页,但也带来了一个显著的问题:过于笨重。 
它们通常要求在使用时下载体积庞大的独立完整浏览器二进制文件,在运行时也需要启动完整的浏览器进程。对于一套仅仅用来抓取文本的后端服务来说,这不仅占用了较多的磁盘存储和执行内存,在不同环境部署时也显得有些麻烦。 
更为棘手的问题在于跨架构的支持。笔者同时担任着 Arch Linux for Loong64 的维护者,在适配 LoongArch 架构时深有体会。这其实是双重的挑战:首先,像 Playwright 这样的工具本身在 LoongArch 下从源码构建就困难重重,笔者至今也没有成功构建出其稳定可用的版本;其次,它们在运行时强依赖于上游官方预编译发布的 Chromium 等独立浏览器二进制...
 
 
Back to Top