1. 首页
  2. 大数据
  3. spark
  4. 大数据处理技术网页数据清洗及分词

大数据处理技术网页数据清洗及分词

上传者: 2019-05-03 06:28:34上传 其他文档文件 2KB 热度 55次
1.在jar包执行时,会出现ansj中的类找不到的错误,解决方法是将ansj和nlp两个包上传到hadoop节点上,然后运行程序的执行命令时加上jar包就可以了。2.重复运行程序的时候因为之前生成结果文件但是没有删掉,运行程序的时候出现文件已存在所以无法建立新的文件。3.运行时会存在classNotFound的错误,因为包名和类名错误,所以运行时的命令要把包名类名等都写对。4.Linux上查看结果文件的时候中文是乱码,用PuTTY连接linux即可解决
用户评论