论文研究 在未分类英文文档集中挖掘相关词的方法.pdf
本体映射是目前的热点问题,而概念相似度计算则是它的关键部分。目前的方法基本上都是基于多策略的综合方法,而综合方法存在计算量大、权值难以确定等问题。提出了一种改进的综合算法-PCASim。该方法通过概念名称相似度计算减少计算量,利用主成分分析改进权值。实验表明该方法是切实可行的。1562009,45(5)Computer Engineering and Applications计算机工程与应用Simp2,…, Sinp,SmnR1,SimR2,…, Sine)对个概念采用同□平均加权团a=0.7田a=0.8a=0.85驪a=0.9圃a=1.0样的方法计算相似度,结果按列排列,构成该参考概念与s个100映射概念的相似度矩阵。查准率查全率33主成分分析一般来说,概念的不同属性或关系虽然都表示概念的特征,但其重要性有所不同。因此在概念相似度计算过程中需要考虑属性或关系相似度的权重。目前人为设置权值的算法由于依赖相应的专业知识,必然存在一定的片面性。另外由于不同的属(a)数据集1上的实验结果性或关系之间存在一定的相关性,这会造成部分相似度的重复□平均加权囫α=0.7田a=0.8图a=0.85翻a=0.9睏a=1.0计算。主成分分析通过提取主成分,去除了属性或关系之间的相关性,将主成分的贡献率作为权值减少了人为加权的片面性,使得概念相似度计算更准确,而且客观合理。在该模块中,利用主成分分析,对上述相似度矩阵进行变换,构建特征空间,提取主成分,计算主成分的贡献率,将贡献率作为权值对主成分加权求和,计算和的最大值。最大值对应的概念就是与参照概念最相似的概念。(b)数据集2上的实验结果图2实验结果比较4实验与分析了原数据的特征。41实验数据比较平均加权方法与 PCASI方法的实验结果可以看测试数据选自EON数据集,该数据集用于2007年国际本出,当a≥0.85时,在数据集1上,平均加权方法的查准率和体映射大赛。它主要描述了书籍信息。该数据集包括54组本体查全率与 PCASim方法相当。而在数据集2上,本文方法明显数据。编号101的数据是它的参考本体,也是最完整的本体。其优于平均加权方法。这说明利用主成分分析改进了权值,提中包括3个概念、40个属性,24个关系。在这里同样将101作高了概念相似度的准确率,肯定了在相似度计算的综合方法为参考本体。本文相似度计算以名称相似度为主,所以选取了中引入主成分分析的必要性。同时也说明了本文方法不仅适编号205的本体数据作为映射本体,该数据体现了名称之间的合普通情况的概念相似度计算,尤其适合概念具有高维特征近义关系。数据的情况。PCASi方法在对综合计算加权时使用主成分分析,而主在算法的执行效率方面,本文方法使用概念对约减,这将成分分析的优势体现在对高维数据的处理上。为了验证主成分减少mxk次相似度计算,提高了计算的效率。而在主成分分析分析的效果,将EON数据集中的数据分为两部分。数据集1是部分,矩阵运算比较耗时。但主成分分析通过降维,抽取主成与书籍信息关系不大的概念,该部分概念包括的属性和关系不分,减少了部分计算量。总体比较, PCASim方法的效率稍高于多,只有3到5个。数据集2是与书籍信息有直接关系的概念,平均权值方法。该部分概念有较多的属性和关系,一般在30个左右。4.2评估方法5结束语使用概念相似度计算普遍采用的查准率,查全率对实验结在借鉴当前概念相似度计算综合方法的基础上,提出了果进行评价。査准率表示正确发现的相似概念占发现的所有概种概念相似度计算的改进方法。通过计算概念名称相似度约减念的比率,査全率是指正确发现的相似概念占所有相似概念的了参与计算的概念对,减少了综合方法的计算量。利用主成分比率。分析,抽取了相似度计算的主要成分,依照贡献率对各主成分43实验设计加权,使相似度计算更为准确、合理。实验验证,该方法相比与实验用平均权值计算相似度的方法作为参照,来验证般的加权方法效果较好,有一定的实用性。PCASim方法。在数据集1、数据集2上分别进行了这两种方法的实验。平均权值方法没有对概念对进行约减,在概念相似度参考文献计算上采用所提的多角度计算方法,并使用平均权值对不同角 Madhavan J, Bernstein p a, Rahm E Generic schema matching with度的计算结果加权。对于 PCASI方法来说,贡献率累加和acupid[C] /Proceedings of the 27th International Conference on Very是个主要的参数,它决定主成分选取的多少。因此在 PCASimarge Data Bases, 2001: 49-58方法实验中,选择了5个不同的α值来说明主成分数量对主成[2] Doan A, Madhavan J, Domingos P,et al. Learning to map between分分析的影响。ontologies on the semantic web[C]/proceedings of the 1lth WorldWide Web Conference, 2002: 662-67344结果及分析3]郑丽萍,李光耀,梁永全,等本体中概念相似度的计算计算机工实验结果见图2。从 PCASim方法的实验结果可以看出,程与应用,2006,42(30):25-27α≤0.85时该方法的查准率、查全率变化较大。而在α≥0.85时4虞晓芬,傅玳多指标综合评价方法综述门统计与决策,2004(11)已经趋于稳定。这说明α=0.85时选取的主成分已经基本反映119-12
下载地址
用户评论