My NodeJS Crawler 第一个爬虫演示
项目名称:tufencrawler(土粉网爬虫程序)
MySQL数据库名称:tufen_crawler
数据库创建:
CREATE SCHEMA tufen_crawler;
CREATE TABLE tufen_crawler.topic (
id INT NOT NULL,
author VARCHAR(45) NULL,
date VARCHAR(45) NULL,
content VARCHAR(45) NULL,
PRIMARY KEY (id)
);
正则表达式匹配规则:
var url = '';
var s = url.match(/post-enterprise-(\\d+)-(\\d+).shtml/);
console.log(s[2]);
内容提取方法:
var content = $('.atl-content bbs-content').html().trim();
主要思路:提取内容。
用户评论