记一次python 爬虫爬取深圳租房信息的过程及遇到的问题
为了分析深圳市所有长租、短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题:(一)在get_room_url函数中,开始是想直接return每个租房信息的room_url,但是return不同于print,函数运行到return时就会结束该函数,这样就只能返回每页第一个租房room_url。(二)没有写第76行的if语句,我默认get_one_page_html返回的room_html不为空,因此出现multiprocessing.pool.RemoteTraceback报错:上图中显示markup为None情况下报错,点击蓝色"F:\ProgramFiles\anaconda3\lib\site-packages\bs4\__init__.py"发现markup为room_html,即部分room_html出现None情况。最终成功爬取某租房公寓深圳市258页共4755条租房信息,为下一步进行数据分析做准备。
下载地址
用户评论