论文研究 基于HRWiTD算法的阿拉伯文文档自动分类
这些文档包含有关各个主题的大量有价值的知识,最近,Internet上的文档可从各种来源获得。 因此,需要以较少的人为干预对这些文档进行自动,快速和准确的分类。 在本文中,我们介绍了一种称为文本文档中最高单词重复率的新算法(HRWiTD),以对自动阿拉伯文本进行分类。 语料库分为训练集和测试集,以应用于建议的分类技术。 分析训练集以进行学习,并将学习数据存储在“学习数据集”文件中。 在学习数据集文件中,将包含每个单词的最高重复次数的类别指定为该单词的类别。 该文件包含具有较高重复次数和类别值的非重复单词,它们来自火车集中的所有文本。 对于测试集中的每个文本,使用学习数据集文件将单词的类别分配给特
用户评论