CaQing爬虫大佬们,指点苦命人应付ai赋能爬虫🙏 中发帖

本人基本vibe coding,编码渣渣,顶多python入门水平,本人以前是vibe软件开发,做一些小工具之类的,对网页分析等了解不多。 
这几天开始接触一些网络数据爬取分析的需求,基本要求十万条级别的数据量,且分数据类型(社交平台用户评论、专业报告、新闻报道、政府公告等)和数据来源进行爬取,最后还要分析。 
基本需求是根据一个【确定议题】(对某产品的市场情况分析、社会热点的舆情监测、事业/政策反响调研之类的)进行泛爬取,最终形成超大数据集,对大数据进行分析,以回应议题需要。爬取量大但短期内完成后就不爬了,等有新议题再启动。 
我本人觉得这很像现在agent工具里的web search功能,ai根据一个未知点主动搜索相关信息加以分析应用,但是靠web search完全无法做到大规模真实数据爬取。 
我个人构思是这样,web search完成不了,那能不能写个超级web search: 
...
 
 
Back to Top