1. 首页
  2. 人工智能
  3. 机器学习
  4. LIBSVM_Classify_E mail.zip

LIBSVM_Classify_E mail.zip

上传者: 2020-12-20 21:19:42上传 ZIP文件 29.9MB 热度 6次
利用libsvm算法对中文邮件二分类 1.按照索引读取数据,将索引用字符“d”切割;对前半部分提取索引值为0的字符,根据该字符为“s”或“h”分别可以将读取的每个文件写入其它的路径。 2.读取每一个邮件的同时,利用正则表达式去除文本中的英文和数字以及特殊字符,剔除无关的数据。 3.在读取数据的同时对文本进行分词(这里采用的分词工具为ansj),这里在分词后需要再此利用正则表达是去掉分词后的词性标注,并将词语用空格分割
下载地址
用户评论