CaQing 在爬虫大佬们，指点苦命人应付ai赋能爬虫🙏 中发帖本人基本vibe coding，编码渣渣，顶多python入门水平，本人以前是vibe软件开发，做一些小工具之类的，对网页分析等了解不多

CaQing 在爬虫大佬们，指点苦命人应付ai赋能爬虫🙏 中发帖

本人基本vibe coding，编码渣渣，顶多python入门水平，本人以前是vibe软件开发，做一些小工具之类的，对网页分析等了解不多。 
这几天开始接触一些网络数据爬取分析的需求，基本要求十万条级别的数据量，且分数据类型（社交平台用户评论、专业报告、新闻报道、政府公告等）和数据来源进行爬取，最后还要分析。 
基本需求是根据一个【确定议题】（对某产品的市场情况分析、社会热点的舆情监测、事业/政策反响调研之类的）进行泛爬取，最终形成超大数据集，对大数据进行分析，以回应议题需要。爬取量大但短期内完成后就不爬了，等有新议题再启动。 
我本人觉得这很像现在agent工具里的web search功能，ai根据一个未知点主动搜索相关信息加以分析应用，但是靠web search完全无法做到大规模真实数据爬取。 
我个人构思是这样，web search完成不了，那能不能写个超级web search： 
...