1. 首页
  2. 编程语言
  3. Python
  4. Phantomjs抓取渲染JS后的网页(Python代码)

Phantomjs抓取渲染JS后的网页(Python代码)

上传者: 2022-03-05 01:25:14上传 PDF文件 68.74 KB 热度 13次

最近需要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。Python调用Phantomjs貌似没有现成的第三方库,漫步了一圈,发现只有pyspider提供了现成的方案。简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery,更不用忍受浏览器写Python的糟糕体验(偷笑)。所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!

用户评论