1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 文本挖掘中一种基于参数估计的语句分块方案研究.pdf

论文研究 文本挖掘中一种基于参数估计的语句分块方案研究.pdf

上传者: 2020-08-07 20:24:52上传 PDF文件 1.32MB 热度 12次
若想从文本中获得高质量信息,一般来讲需要处理大量数据集,还需使用自然语言处理方法及参数估计统计模型。针对该问题,首先针对数据遵守幂律分布的统计参数估计模型进行了优化;然后提出一种统计学方法用于文本挖掘中的语句分块,通过迭代估计词组概率,将大型语料库中的语句分成更小的有意义词组。该方法要求生成并存储大量词组频率数据,并在每次迭代时支持计算节点快速访问数据。实验评估表明,该方案显著降低了远程数据库查询次数,其端到端应用运行时间要比只基于HBase的原始分布式部署快出6倍。
下载地址
用户评论