知乎爬虫爬取知乎某一问题下的所有回答回答数小于800左右
知乎爬虫爬取知乎某一问题下的所有回答回答数小于800左右基本思路将question id进行遍历存入文件对问题进行过滤后爬取需要的回答目前项目爬取的机制是将滚动条拉取到页面底端然后一次性抓取所有的回答元素但由于目前知乎的缓冲加载机制当回答数量过多时大概800左右前面的回答信息就抓取不到了拟解决思路边滚动边抓取但不方便进行元素定位以避免重复抓取项目结构│config.py爬取链接及存储路径设置│README.md│requirements.txt│scanner.py获取有效的问题网址filter links.py按照一定规则筛选问题│ZhihuSpider.py知乎爬虫主程序│ ├─Driver│chromedriver.exe Chrome驱动│geckodriver.exe gecko驱动│ └─Results result20220728深度神经网络DNN是否模拟了人类大脑皮层结构.csv抓取结果样例
用户评论