爬虫初学——爬取京东商品的评论(二)
酱菜Seven7原创,转载请注明出处。 使用的手段:数据库Mysql, 语言python,正则表达式re 在获取了评论url的情况下(获取京东评论的url方法),现在我们可以来爬取用户昵称和url了。作为一个初学者,我用的正则表达式,来对那url的数据,进行匹配获取。 一、根据内容,编写合适的正则表达式 通过分析打开的url地址的数据,我们可以找到所需的两个规律: 1、用户昵称部分: 所以,我们针对提取用户的正则表达式如下: r'\"nickname\":\"([^",]+)\",\"replyCount2\"' 2、评论部分: 评论部分,因为会有无追评,而造成结尾不一致: 情况一: 情
用户评论