论文研究 基于双隐层极限学习机的模糊XML文档分类.pdf
随着大数据时代的到来,对异构和分布式的模糊XML数据管理显得越来越重要。在模糊XML数据的管理中,模糊XML文档的分类是关键问题。针对模糊XML文档的分类,提出采用双隐层极限学习机模型来实现模糊XML文档自动分类。这个模型可以分为两个部分:第一层采用极限学习机提取模糊XML文档的相应特征,第二层利用核极限学习机根据这些特征进行最终的模糊XML文档分类。通过实验验证了所提方法的性能优势。首先对主要的调节参数包括隐藏层节点的数目[L],常量[C]和核参数[γ]进行了研究,接下来的对比实验说明提出的基于双隐层ELM(Extreme Learning Machine)的方法相较于传统单隐层ELM以及S赵震,马宗民,张富,等:基于双隐层极限学习机的模糊XML文档分类2017,53(4)21其中x作为第i个模糊XML文档的特征术语对应的特算法IELM征问量。输入:训练集D=《x,y}t=1,2,…,T,激活函:=∑(TF(L,FDCn)s)·IDF(L)(4)数g(x);隐藏节点数LL≤T)。输出:其中,L为模糊ⅹML文档中元素或属性的标签步驟1随机指定输入权重W;和偏移量b;FDoc n为对应L的第j个节点。与结构化向量空间步骤2计算H模型不同的是,,为节点e,对应的单元向量步骤3计算P=H1n: Node Possvalue(5)然而,在某些情况下是不能获得激活函数的。但是n; Node Depth对应的核函数K(,v)(eg,K(u,v)=exp(-1lt-v))其中 n,.NodeDepth是节点在模糊XML文档树中的深是已知的。这时隐藏层节点的数目L是无需指定的。度, n. Nodeposs valuc是节点对应的Pos值。可得ELM的核矩阵:DELM=HH: 22EL Mi j =h(xi)h(x )=K(i, I )(11)3极限学习机核矩阵Ω1M只与输入数据,和训练样本数N有极限学习机是由黄广斌教授提出来的单隐层前关。这样的ELM称为核极限学习机KLLM。可得输出馈神经网络。极限学小机的最突出优点是学小速度非函数为常快,并且隐藏层的权重和偏移值可以随机指定,权重f(a=h()Il+IIII T参数可以通过矩阵计算得到而无需人工调节。考虑N个任意样本(x,t)∈R。那么ELM可K(X, XI1+Hh T(12表示为K(X,X>B8(W,·x+b)=0;j=1,2,…,N这里L是隐藏层节点数目,g()是激活函数,W是输入双隐层ELM模型权重向量,β是输出权重向量,b是第氵个隐藏节点的传统的多元教据分类可以分为两个阶段:特征提取阶段和分类阶段。特征提取用于降低原始数据的维度偏移量1、学习目的是为了达到最小的训练错误,即从众多特征中抽取最具代表性特征,而分类阶段根据提取到的特征应用不同的分类算法进行分类。常见的特川-4=0,o是实际输出值征提取方法包括用于线性特征转换的PCA和用于非线性特征转换的KPC∧等,分类算法主要包括人工神经刚则存在W,β,b使得络和SVM等。本文针对模糊XML文档的分类,提出基∑B;(Wx1+b)=(=1,2,7)丁双隐层ELM分类模型。在特征提取阶段,采用EL来提取特征,在分类阶段,采用KELM来进行分类处上面的等式可表示为理。从而实现两阶段都采用机器学习方法的分类框(8)架。双隐层ELM分类方法的工作流如图3所示。其中g(W1·x1+b1)…g(W1:x1+bn)r,[(W1·xN+hb)…g(W:xy+bF=[B,B,…口■口■T=问题简化为求解线性系统的最小二乘解。则输出■■原始隐藏层抽取的权重β为数据特征■隐藏层输出层h(yf(v)B=H1(9)ELMKELM其中H=(HH)H是H的伪逆矩阵。特征抽取器分类器计算得到输出权重β后,都能利用它得到:图3基于双隐层ELM方法工作流f、xr)=B/(x,)(10)整个模型的实施过程可以分为训练阶段和预测阶ELM算法表示成算法1描述如下段。这一模型目的是利用训练样本集在输入变量和分222017,53(4)Computer Engineering and4 pplications计算机工程与应用类结果间建立一种映射关系。首先随机选择训练样本,化参数C的取值范围为{2-",2-°,…,2}。然后分别对相应的模糊ⅹML文档进行预处理,得到模在核极限学习机和SⅴM中,核函数采用高斯核:糊XM文档的向量表示。最后,通过提出的双隐层K(u, u)=exp(-yllu-ill(14)ELM方法快速建立分类模型。模型框架如图4所示。其中参数y取值范围为{2-,2-,…,2"},正则化参数C训练样4预处组“HM特征抽取器}→KHM分类器的取值范围为22,…,2}优化参数.优化参数C和y52数据集调试样本处理~ELM特征抽取器KELM分类器实验所川数据来自维基百科XML语料库,维基百科XML语料库包含分为21个类的96000个以上的分类结果XML文档,随机且不重复地选择其中的文档构成数据图4基于双隐层上LM分类框架子集。对于这些XML文档,需要通过程序自动实现随机增加模糊节点从而生成模糊XML文档。自顶向下遍基于双隐层ELM分类模型表示成算法2描述如下:历xML文档树,对于访问的每个节点随机增加模糊节算法2DH-ELM点(Dst,val)作为它们的孩子节点,它们原来的孩子成输入:训练集FD,测试集FT激活函数g(x);隐藏为这些模糊节点的孩子。最终所得数据集的特征如表节点数L(≤T);核函数K,参数C和y。所示。对于每个数据集,选取80%作为训练集,20%作输出:分类结果Yr为测试集。评估分类性能主要考虑两个方面:分类精度步骤1转换FD到向量模型MSSM,得到原始训和训练时间练数据集D。步骤2转换FT到向量模型MS-VSM,得到原始训表1数据集特征描述练数据集T编号文档数特征数类别数步骤3将D作为算法1的输入做特征抽取,得到寺D90征矩阵X,将X作为KFIM的输入计算分类结果X。16225步骤4重复以上训练步骤得到参数L,C,y的最359优值。步骤§将T作为算法1的输入做特征抽取,得到特28征矩阵Y,将Y作为KELM的输入计算分类结果Y。D73435869DH-ELM算法的时间复杂度分析如下:ELM特征890D91260610提取部分需要计算隐藏层输出矩阵X的时间复杂度为OLNn),计算输出权重B的时间复度为:53参数选取OL3+L2N+IN)。KELM分类部分需要计算核矩阵提出的基于双隐层极限学习机分类模型主要的调K的时间复杂度为ONm),计算输出权重的时间复节参数包括隐藏层节点的数目L,常量C和核参数杂度为:O2N+Nm)。总的时间复杂度为O2N+y。通过下面的实验来决定最优参数值的选取。N(m+n)+L+L N+LN(m+n)图5表明了当参数C固定时参数L对分类精度的影响。可以看出,当参数C取值一定的情况下,分类精5实验及分析度随参数Ⅰ的变化不大。51实验描述100下面通过实验进一步评估本文提出的基于双隐层C=2极限学丬札的模糊XⅦ文档分类方法的性能。本文选甘一E+C=2日合C=2择最流行的分类算法ELM和SVM进行分类性能对比C=25试验。所有实验在 Intel core i7处理器,4 GB RAN个人计算机上实现。所有的仿真实验运行在 Windows7操作系统上 MATLAB R2014a和JDK1.6环境下在FM算法中,采用 sigmoid作为激活函数:gla, b,r)=(131+exp((ar+ b)其中隐藏层节点个数,取值范围为{2°,2,…,2},正则图5关于L的分类精度曲线赵震,马宗民,张富,等:基于双隐层极限学习机的模糊XML文档分类2017,53(4)23图6表明了当参数L固定时参数C对分类精度的取对于分类精度的提高效果明显。同时,可以看出分类影响。可以看出,当参数L取值一定的情况下,C的取精度的优劣与数据集的大小无直接关系。图9显示了值越大,分类精度越高。在9个不同数据集上执行文中提出的算法所得到的训练时间的对比情况。可以看出几种不同的分类方法的训练时间随数据集的增大而增加。但是,提出的基于双隐层极限学习机分类方法训练时间是最短的,明显优于另外两种分类方法,这是由于特征提取大大缩减了参与把75计算的特征数H,从而降低计算量,减少运算时间。LELMDH-ELM图6关于C的分类精度曲线可以看出,参数C和L对于分类精度的影响是不同的。为荻得较高的分类精度,L的值应该尽量大,而DI D2 D3 D4 D5 D6 D D8 D9C的取值对分类精度影响相对小图8不同分类器的分类精度用下面的三维图来表示有关参数C和y对于分类精度的影晌。可以看出,在y取值为2附近时,得到的10′O ELm分类精度较大,而C和y的取值对于分类精度的影响都1)3+SVMDH-EL是不规则的。00°大70…·……∵DI D2 D3 D4 D5 D6 D7 D8 D9图9不同分类器的训练时间6结束语本文针对模糊XML文档的分类问题,提出采用双图7关于C和γ的分类精度曲线隐层极限学习机模型来实现模糊XML文档自动分类。首先采用极限学习机提取模糊XML文档的相应特征根据以上实验结果选取优化参数(C,1)为(100然后利用核极限学习机根据这些特征进行最终的模糊1000)。选取(C,y)为(100,1)作为下面对比试验中使XML文档分类。最后通过实验验证了所提方法的性能川的参数。优势。在实验中对主要的调节参数包括隐藏层节点的54对比实验及分析数目,常量C和核参数γ进行了研究。实验证明,本文为验证提出的基于双隐层极限学习机分类模型的提出的基于双隐层ELM的方法相较于传统单隐层ELM有效性,将进行在相同数据集上釆用不同分类器的性能和SwM方法,分类精度得到较大提高。此外,使川极限对比实验。为尽量在相同的条件下进行对比实验,三个学习机的方法进行特祉抽取,避免了人T参数调节和多分类器采用相同的参数,并且对于ELM算法,激活函数次迭代。如果进·步增加隐藏层的数量,对模糊ⅹML均采用 Sigmoid函数文档特征的提取可能会更为精确,这也是下一步研究的图8显示了在9个不同数据集上使用文中提出的方方向。法所得到的分类精度的对比情况。从图中可以看出提出的基于双隐层板限学习机分类方法的有效性要优于参考文献单个ELM和SVM,这是因为基于双隐层极限学习机分[1MaZM, Yan L Fuzzy XML data Imodeling with the UML类方法是在进行了特征提取之后再分类,有效的特征提and relational data models[J]. Data Knowledge Engi24017,53(4)Computer Engineering and4 pplications计算机工程与应用neering,2007,63(3):972-996.measuring structure and semantic similarity of XML12 Yan L, Ma Z M, Liu J, et aL.XML Modeling of fuzzy daliadocuments based on extended adjacency matrix]. Physicswith relational databases[J]. Chinese Journal of ComputersProcedia,2012,24:1452-14612011,34(2):291-303[10 Ruggieri S Efficient C4. 5[JIFFF Computer Society, 2000[3] Ma Z M, Liu J, Yan L Matching twigs in fuzzy XML[JI14(2):438-444Information Sciences, 2011, 181(1): 184-200[Il Jiang L, Li C Deep feature weighting for naive Bayes4」∠ hang F,YanL,Ma∠M,etal. Representation andand its application to text classification[J]. Engineeringreasoning of fuzzy XML model with [uzzy descriptionApplicalions of Artificial Intelligence, 2016. 52: 26-39.logic[J]. Chinese Journal of Computers, 2011, 34(8): 1437- [12] Ramasundaram S, Victor S P Text categorization by back1451propagation network[J]. International Journal of Computer[5] Thomo A, Venkatesh SRewriting of visibly pushdownApplications, 2010, 8(3/4): 1-5languages for XML data integration[C]//Proceedings of the [13] Ramesh B, Sathiaseelan JG RAn advanced multi class17th ACM Conference on Information and Knowledgeinstance selection based support vector machine for textManagement, ACM, Napa Valley, California, USA, 2008:classilication[J]. Procedia Cumputer Science, 2015, 57:521-5301124-1130.[6] Tekli J, Chbeir R A novel XML document structure com- [14] Huang G B, Zhu Q Y, Siew C K Extreme learningparison framework based-on sub-tree commonalities andmachine: theory and applications[J]. Neurocomputing, 2006label semantics[J]. Web Semantics: Science, Services and70(1):489501Agents on the World Wide Web, 2012, 11: 14-40115 Huang G BAn insight into extreme learning machines[7 Nierman A, Jagadish H V Evaluating structural similarilydom neurons, random Teatures and kernels[J]. Cogniin XML documents[C]/Proceedings of the ACM SIGMODtive Computation, 2014, 6(3): 376-390International Workshop on the Web and Databases, 2002, [16 Chowdhury G. Introduction to modern information2:6l-66retrieval]. London: Facet publishing, 2010: 110-13518 Zhao X, Wang G XML document classification based on [17 Yang J, Chen XA semi-structured document model forELM[JJ. Neurocomputing, 2011, 74(16): 2444-2451text mining]Journal of Computer Science and Tech9 Zhang X L, Yang T, Fan B Q, et al. A novel method fornology,2002,17(5):603-610(上接18页)scott topology and sobrification[j Order, 2006, 23: 359-369[5] Zhang Han. A note on continuous partially ordered sets[J]. [11] Xu Luoshan, Mao Xuxin Srongly continuous posets and theSemigroup Forum, 1993. 47: 101-104local Scotl Topology[].Journal of Mathematical Analysis[61 Mislove M W Topology, domain theory and theoreticaland Applications, 2008, 345: 816-824computer science!J].Topology and its Applications, 1998, [121 Mao Xuxin, Xu Luoshan Meet continuity properties ofposets[J]. Theoretical Computer Science, 2009, 410: 4234[7] Mislove M W. Local DCPOs, local CPOs and local4240completions[J]. Electronic Notes in Theoretical Computer[13 Ho Wengkin, Zhao Dongsheng Lattices of scott-closedScience,l999,20:287-300sets[J]. Commentationes Mathematicae Universitatis Car-[8] Lawson J D, Xu Luoshan Posets having continuous inter-vals[J]. Theoretical Computer Science, 2004, 316: 89-103lnae,2009,50(2):297-3149] Zhao Bin, Zhou Yihui. The category of supercontinuous[14毛徐新,徐罗山S-超连续偏序集的性质及等价刻画[posets[J]Journal of Mathematical Analysis and Applica计算机工程与应用,2015,51(1):9-12.tions,2006,320:632-641[15 Venugopalan P a generalization of completely distributive[10 Mao Xuxin, Xu Luoshan Quasicontinuity of posets vialattices [J].Algebra Universalis, 1990, 27: 578-586
用户评论