论文研究 改进的Batch RSA算法的设计与实现.pdf
结合文献资料特征利用层次聚类算法,实现了自动推荐学术领域专家系统。主要介绍了文本聚类的过程及关键技术;完成对学科领域内作者簇内学术水平的评价,将h指数应用到评价作者的学术水平之中,推荐出该领域中的专家群。将文献资源的层次聚类划分与专家社区发现结合在一起,采用修正h指数公正地评价了作者的学术水平。史玉珍,彭智勇:基于修正h抬数的学科领域专家发现的研究2011,47(29)修正h指数算法止,该科研T作者的h指数=序号-1,即第一个h指数h1,记为评价学者在指定学科领域的学术水平,首先对其领域为h1-h,计算h1排序及以上文献被引的总次数c1内全部作者计算h指数,还要考虑作者发表论文与本学科领域(3)剔除h其以上排序文献,对剩下的文献重新排序。关联程度,综合计算作者在本领域学术奉献,于是提出了基于(4)顺查排序表,当排序表中序号的值大丁被引次数时停止,层次聚类的修正h指数h方法。具体算法如下:将学者发表得到第二个h指数h2,计算h2排序及以上文献被引总次数c2文献和研究领域的密切程度计算出来,然后把文献按被引次(5)重复步骤(3)(4),直到剔除hn及其以上排序文献重数排升序分成若干个区间(数列),分别统计不同区间(数列)新排序后,顺查排序表得到hn=1,计算hn排序及以上文献被的h值,利用修正h值进行学术水平综合评价。引的总次数cn=1,得到该科研工作者扩展h指数h4』1引文与学科领城的关联度量h为该科研人员总的学术影响力指数,c1/c1为其他区间评价作者学术水平既要结合学科领城内作者发表的全部文h指数力相对于第一个区间h指数h的加权系数。设S学者献引用情况,也要考虑作者在该学科领城内的学术奉献,根据被引用次数为h的文献数目c集合在领域C中的类别差异关联程度给与不同评价分值。以粗糙集研究为例,不属于该度记为ACE,综合h指数公式被调整为类别的文献评价分值低些;属于该领域的文献评价分值高些。假定聚类划分后学科领域类别有CC2…,Cn,在类别Ch。=h1xACE1+2xh2xACE2+xh3xCE3+…领域内的某一学者S全部发表文献为DS)=(dmd2…,dm)xh×ACE×h×ACE每篇文献的层次聚类划分轨迹为 Path(d≤ksm),按层次聚类划分的次序依次记录,如表2记录了文献层次聚类的分类轨迹。依据分类轨迹可评价学者文献与待评学术领域关联度5某于修正h指数的学科领域专家发现即类別差异深度。所谓类別差异深度是从树的角度衡量任意本系统基丁中国知网资源爬取文献资源实现了层次聚类两个文献存在的类别领域深度差,计算时将层次聚类视为家划分,选定了电子技术分类下的粗糙集领域共计193篇文献族图,根据各个文献的历史轨迹求自左向右匹配求重复轨迹进行修正h指数实验。粗糙集领域文献共涉及作者2434名,深度Rd( Reduplicate trajectory depth),类别差异深度Cd统计每位作者的文献发表数目并计算作者h指数,研究中发现( Category differences depth)为拟选学科领域的Path深度与相发文数量居前十名的作者和h指数排名前十名的作者居然完同轨迹深度的差值的公式。全一致,证明了h指数衡量作者学术水平的可行性。为全面考虑作者的文献奉献,以及文献与相关领域的关联程度,利用文表2文献层次聚类分类轨迹中修正h指数综合评价作者的学术水平,实验证明修正h指数文档分类轨迹PathPathdepth更吻合作者在特定领域内学术水平的评价,基于该算法有效6,5,4推荐出粗糙集领域内的专家(详见表3)。6,5,3,2,13513345表3粗糙集领域Top_10专家推荐6,5,3序号作者粗糙集文献篇数知网文献篇数h指数修正h指数E6,5,41苗夺谦1616371F6,5,3,2王国胤1511818350G6.5,3,2,1王加阳1051010980关欣17572Fd(C,C)=PaC) Path(C)轨迹重合数目,则cd的算何明10.180法公式为:6孙士保55.288( Pathdepth(C)-Rtd(Ci, C)))王珏7323Cdd(C, CRid(C. C于洪70309冯博琴若字者S全发表文献为D(S)=(d,dn,…,dm),Mm(D(S)10杨习贝3555.733指DS)发表论文总数目学者S在专业领域C中发表文献的平均类别差异度ACE(C,S)的公式为6结束语对文献资源采用层次聚类实现各个学科领域的分类,依∑Cdl(Cl,Clas(Sk)据文献所处类别,对指定领域内作者进行了学术水平综合评ACE(C S=AJum(D(S)价,在专家学术评价中引入了h指数概念,阐述了h指数的特4.2不同区间(数列)的h值点和计算方法;结合h指数评价的不足,提出了基于层次聚类扩展h指数h是由不同区间文献的h指数h的修正h指数算法。综合学者发表文献的引用情况和作者对特定领域的奉献程度,定乂了层次类别之间差异的衡量指标联合构成,h1=h是高被引文献对科研人员学术影响力所作的AVE,用修正h指数评价专家在指定学科领域的学术水平;为贡献,h2…hn则是低被引文献对科研人员学术影响力所作的专家的发现和推荐提供了基础数据。本文在层次聚类划分上贡献。扩展h指数h的计算步骤如下忽视了交叉学科文献的类别归属问题凵,以发计算AVE时忽(1)将某科研人员所有文献按照被引次数由高到低进行略了父子类別和派系类别在学术奉献的差异,在今后的研究排序。中将对上述问题进行深入讨论。(2)顺查排序表,当排序表中序号的值大于被引次数时停(下转73页)
用户评论