基于自然语言处理的医学知识挖掘技术研究
1)背景研究:生物医学文本挖掘在处理急剧增长的生物医学自然语言文本数据时发挥关键作用,从中提取特定的事实信息,主要涉及生物实体,如基因、蛋白质、药物、疾病之间的关系。这对于建立完整的生物知识网络、预测生物体关系以及研发新药等方面具有重要意义。 2)典型应用及方法2.1.1实体识别1)背景生物命名实体识别旨在从生物医学文本中识别指定类型的名称,如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。由于生物医学文献庞大,涉及各种专有名词,同义词众多,同时存在大量缩写词,因此人工识别耗时耗力。因此,命名实体识别的准确性是其他文本挖掘技术(如信息提取或文本分类)的前提条件。 2)典型应用及方法目前,生物命名实体识别的研究方法主要包括基于启发式规则、词典匹配以及机器学习方法,如支持向量机(SVM)、最大熵、条件随机场(CRF)以及隐马尔科夫(HMM)等。
用户评论