時間:2023-07-17 16:22:52
序論:在您撰寫神經(jīng)網(wǎng)絡(luò)文本分類時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
關(guān)鍵詞:Web文本分類;RBF網(wǎng)絡(luò);高斯函數(shù);梯度下降法
中圖分類號:TP18文獻標(biāo)識碼:A文章編號:1009-3044(2011)13-3107-02
The Researching of Web Text Classification Based on RBF Neural Network
XU Chun-yu
(Information Engineering Department, Liaoning Provincial College of Communications, Shenyang 110122, China)
Abstract:Web text classification is the automatic classification for Web information and it makes the use of text classification technology. The technology makes user find resource that they want quickly. The data from the Web is divided into sample data set and test data set after feature extraction in the process of text classification. Sample data set is inputted to the RBF network and the RBF network is trained. Test data set is inputted the RBF to validate after training the network. Experimental results show that RBF network achieved better classification results.
Key words: web text classification; RBF network; gauss Function; gradient descent algorithm
近年來,web已經(jīng)成為擁有數(shù)十億個異構(gòu)的、半結(jié)構(gòu)化的、動態(tài)的分布式信息空間,這些web信息源中有80%以上的信息是以web文本的形式出現(xiàn)的,如何從這些海量的web信息資源中尋找并獲取有價值的信息和知識模式,已經(jīng)成為信息處理的一個關(guān)鍵問題,web文本分類有助于人們完成這個目標(biāo)[1]。
1 web文本分類
文本分類就是先根據(jù)已有的樣例文本找出能描述并區(qū)分文本類別的分類器,然后利用該分類器對新的未分類的文本進行分類。根據(jù)機器學(xué)習(xí)的觀點,文本自動分類問題可以歸結(jié)為一個機器學(xué)習(xí)任務(wù):假定全體文本空間為D,預(yù)定義的文本類別集合為C{c1,c2,…,c3}。待學(xué)習(xí)分類法稱為目標(biāo)分類器,記作y,一般來說,y是從文本集到類別集的一個映射,即y:DC,通常情況下該映射存在,但沒有解析表達(dá)式。文本分類中機器學(xué)習(xí)的目的就是找到映射y的一個近似表達(dá)式或估計:y:DC,使對于D中所有文本d有h(d)=y(d),或使得h(d)≠y(d)的概率最小。其中h為分類器[3]。
隨著web上海量文本信息的增加,文本分類技術(shù)的處理對象從普通的文檔擴展到了web文本,即形成了web文本分類技術(shù),顯然,文本分類技術(shù)是web文本分類技術(shù)的基礎(chǔ)。
徑向基函數(shù)(Radial Basis Function,簡稱RBF)神經(jīng)元網(wǎng)絡(luò)是在借鑒生物局部調(diào)節(jié)和交疊接受區(qū)域知識的基礎(chǔ)上提出的一種采用局部接受域來執(zhí)行函數(shù)影射的人工神經(jīng)元網(wǎng)絡(luò)。在人的大腦皮層區(qū)域中,局部調(diào)節(jié)及交疊的感受是人腦反映的特點。RBF網(wǎng)絡(luò)同BP網(wǎng)絡(luò)類似,也是一種三層前饋式神經(jīng)網(wǎng)絡(luò),輸入層節(jié)點傳遞輸入信號到隱含層,隱含層節(jié)點由像高斯函數(shù)那樣的輻射狀作用函數(shù)構(gòu)成,而輸出層節(jié)點通常是簡單的線性函數(shù)。網(wǎng)絡(luò)模型如圖1所示。
從RBF的網(wǎng)絡(luò)模型圖可以看出,RBF網(wǎng)絡(luò)由兩部分組成,第一部分為非線性變換層,它的輸出公式如公式(1)所示:
(1)
其中X={x1,x2,…xn}為輸入向量,Ci={Ci(1),Ci(2),…Ci(N)}為第i個非線性變換單元的中心向量,Ct(q)表示第t個中心的第q個分量,σi為第i個非線性變換單元的寬度,||?||表示的是范數(shù),通常情況下取2范數(shù),g(?)表示的是非線性函數(shù)關(guān)系,一般取Gauss函數(shù),Gauss函數(shù)的函數(shù)關(guān)系如公式(2)所示:
(2)
第二部分:線性合并層,它的作用是將變換層的輸出線性加權(quán)合并,公式如(3)所示,其中l(wèi)為隱含層神經(jīng)元的個數(shù),m為輸出層神經(jīng)元的個數(shù)。
(3)
RBF網(wǎng)絡(luò)通過徑向基函數(shù)能夠更確切的描述人類神經(jīng)元的活動特性。在中心附近的區(qū)域內(nèi)網(wǎng)絡(luò)的輸出最大,網(wǎng)絡(luò)的輸出隨著中心距離的增大,逐漸減小,而這個過程的快慢則是由σ參數(shù)來決定的,σ越大則函數(shù)輸出曲線越平緩,對輸入的變化就越不敏感,因此,可以通過調(diào)節(jié)σ來進一步模擬人類的神經(jīng)元。RBF網(wǎng)絡(luò)最常用的算法是梯度下降法,常用的訓(xùn)練就是選定某種性能指標(biāo),然后采用梯度下降的方法來校正網(wǎng)絡(luò)參數(shù),使該網(wǎng)絡(luò)性能指標(biāo)取得最優(yōu)值,因此RBF網(wǎng)絡(luò)的學(xué)習(xí)實質(zhì)上就是一個最優(yōu)化問題。具體的訓(xùn)練算法為:對于一般的RBF網(wǎng)絡(luò)結(jié)構(gòu),取性能指標(biāo)如公式(4)所示。
(4)
其中,i為網(wǎng)絡(luò)的輸出,具體關(guān)系式如下面的(5)式、(6)式和(7)式所示:
(5)
(6)
(7)
由上面的三個公式可以看出, J是關(guān)于Cj,wjt和σj的函數(shù)。網(wǎng)絡(luò)的訓(xùn)練過程就是調(diào)整以上三組參數(shù),使J趨于最小。求取J對各網(wǎng)絡(luò)參數(shù)wts,ct(q),σt的偏導(dǎo)數(shù),其中1≤t≤P(P是隱含層單元的個數(shù)),1≤s≤M(M是輸出層單元的個數(shù)),1≤q≤N(N是輸出層單元的個數(shù)),得到參數(shù)的校正方法。具體的校正方法為:權(quán)值wts的校正方向如公式(8)所示:
(8)
中心ct(q)的校正方向如公式(9)所示:
(9)
寬度σt的校正方向如公式(10)所示:
(10)
由此,可以得到RBF網(wǎng)絡(luò)的梯度下降法校正公式如(11)所示:
(11)
其中,1≤t≤P,1≤s≤M,1≤q≤N,P為隱含層單元個數(shù),N為輸入層單元個數(shù),M為輸出層單元個數(shù),λ為步長,通常λ=0.05左右。
隱含層到輸出層之間的變換是線性變換,所以采用的是比較成熟的RLS算法。給定樣本輸入,則在當(dāng)前的網(wǎng)絡(luò)隱含層單元中心Cj及寬度σj(1≤j≤P)參數(shù)下,隱含層單元輸出向量為HT=[h1,h2,…,hP],P為隱含層單元個數(shù)。
Y=HTW (12)
其中,Y=[y1,y2,…,yM],W=[w1,w2,…,wM],wi=[w1i,…,wpi],這樣,根據(jù)RLS算法有權(quán)值的修正遞推公式如公式(13)所示:
(13)
這樣,按照上面的公式對網(wǎng)絡(luò)參數(shù)不斷地進行循環(huán)校正,最終網(wǎng)絡(luò)性能將達(dá)到所要求的性能指標(biāo)[5]。
3 實驗
實驗過程中,首先設(shè)計網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),確定RBF網(wǎng)絡(luò)輸出層神經(jīng)元個數(shù),根據(jù)類別的個數(shù)來確定輸出層神經(jīng)元的個數(shù),實驗數(shù)據(jù)分別屬于10個類別,因此網(wǎng)絡(luò)輸出層神經(jīng)元個數(shù)為10。輸入層神經(jīng)元的個數(shù)為文檔在進行特征提取之后向量的維數(shù),實驗中,經(jīng)過降維以后的每篇文檔特征向量的維數(shù)為30,所以將網(wǎng)絡(luò)的輸入層神經(jīng)元的個數(shù)選取為30。由于輸入樣本空間是確定的,可以預(yù)先給定一個隱含層節(jié)點數(shù),只要與輸入樣本的實際類別數(shù)相差不是很大時,就可以使用梯度下降法來不斷修正網(wǎng)絡(luò)的中心值,使網(wǎng)絡(luò)的特性逼近于實際系統(tǒng),這種方法比較簡單,也是一種比較常用的方法,因此,實驗中隱含層神經(jīng)元的個數(shù)取值為9。
RBF網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計完成之后就可以對網(wǎng)絡(luò)進行訓(xùn)練了,實驗數(shù)據(jù)來自中國期刊網(wǎng)上下載的600篇文檔,涵蓋了政治、經(jīng)濟、教育、娛樂等10個類別,每個類別包含60篇文檔,選取其中的500篇文檔作為樣本訓(xùn)練集,每個類別選擇50篇,另外100篇文檔作為網(wǎng)絡(luò)的測試集。首先需要對實驗數(shù)據(jù)進行文本特征提取、降維等過程。其次采用的是Matlab軟件進行編程以實現(xiàn)網(wǎng)絡(luò)的訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練完成以后,輸入測試集中的數(shù)據(jù),測試網(wǎng)絡(luò)能否正確地將相關(guān)的文檔區(qū)分到各個類別中。表1是RBF網(wǎng)絡(luò)的分類結(jié)果。
4 結(jié)論
從上面的訓(xùn)練結(jié)果分析,RBF網(wǎng)絡(luò)能夠?qū)⒋蟛糠值奈谋菊_地劃分到所屬類別,對于體育、娛樂、外語方面的文檔能夠取得較高的識別率,對于政治、經(jīng)濟、軍事等方面的文檔的識別率較低,主要原因是這些類別的文檔中互相包含著相關(guān)的特征信息,這種類型的文檔在進行文本分類的時候,需要在文本特征提取的時候進行相應(yīng)的處理,以使得在輸入神經(jīng)網(wǎng)絡(luò)的時候能夠得到正確的分類結(jié)果。從實驗結(jié)果可以看出,RBF網(wǎng)絡(luò)完全可以應(yīng)用到文本分類中來,并且能夠取得較好的分類效果。
參考文獻:
[1] 蒲筱哥.Web自動文本分類技術(shù)研究綜述[J].情報科學(xué),2009:233.
[2] Crimmins F, Smeaton A, Dkaki T, et al.Information discovery on the internet[J].IEEE Intell.Syst.,1999(14):55-62.
[3] 王曉慶. 基于RBF網(wǎng)絡(luò)的文本自動分類的研究[D].南昌:江西師范大學(xué),2003:9.
[4] Abhijit S, Rober B. 神經(jīng)網(wǎng)絡(luò)模式識別及其實現(xiàn)[M].徐勇,荊濤,譯.北京:電子工業(yè)出版社,1999:30-32,57-114.
[5] 柯慧燕. Web文本分類研究及應(yīng)用[D].武漢:武漢理工大學(xué),2006:14-15,16-17.
[6] 飛思科技產(chǎn)品研發(fā)中心. 神經(jīng)網(wǎng)絡(luò)理論與MATLAB7實現(xiàn)[M].北京:電子工業(yè)出版社,2005:17.
P鍵詞:深度學(xué)習(xí);文本分類;多類型池化
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)35-0187-03
1 引言
為了進行分類,我們建立句子模型來分析和表示句子的語義內(nèi)容。句子模型問題的關(guān)鍵在于一定程度上的自然語言理解。很多類型的任務(wù)需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。
各種類型的模型已經(jīng)被提出。基于成分構(gòu)成的方法被應(yīng)用于向量表示,通過統(tǒng)計同時單詞同時出現(xiàn)的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數(shù)操作生成句子層面的向量,從而構(gòu)成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關(guān)。
一種核心模型是建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。這種模型包含了單詞包或者詞組包的模型、更結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)、延遲的基于卷積操作的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型有很多優(yōu)點。通過訓(xùn)練可以獲得通用的詞向量來預(yù)測一段上下文中單詞是否會出現(xiàn)。通過有監(jiān)督的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠根據(jù)具體的任務(wù)進行良好的調(diào)節(jié)。除了作為強大的分類器,神經(jīng)網(wǎng)絡(luò)模型還能夠被用來生成句子[6]。
我們定義了一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將它應(yīng)用到句子語義模型中。這個網(wǎng)絡(luò)可以處理長度不同的句子。網(wǎng)絡(luò)中的一維卷積層和多類型動態(tài)池化層是相互交錯的。多類型動態(tài)池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數(shù)值而不是單個最大的數(shù)值。第二,池化參數(shù)k可以被動態(tài)的選擇,通過網(wǎng)絡(luò)的其他參數(shù)來動態(tài)調(diào)整k的值。
卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據(jù)位置獨立地提取特征。一個卷積層后面是一個多類型動態(tài)池化層和一個非線性的特征映射表。和卷積神經(jīng)網(wǎng)絡(luò)在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應(yīng)用到句子上計算出多重特征映射表。后續(xù)的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結(jié)構(gòu)我們叫它多類型池化的卷積神經(jīng)網(wǎng)絡(luò)。
在輸入句子上的多層的卷積和動態(tài)池化操作產(chǎn)生一張結(jié)構(gòu)化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠(yuǎn)的詞組的句法和語義關(guān)系。特征圖會引導(dǎo)出一種層級結(jié)構(gòu),某種程度上類似于句法解析樹。這種結(jié)構(gòu)不僅僅是和句法相關(guān),它是神經(jīng)網(wǎng)絡(luò)內(nèi)部所有的。
我們將此網(wǎng)絡(luò)在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預(yù)測[2],此網(wǎng)絡(luò)在二分和多種類別的分類實驗中的表現(xiàn)都優(yōu)于其他方法。第三組實驗在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類問題的分類問題。此網(wǎng)絡(luò)的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預(yù)測,此網(wǎng)絡(luò)將160萬條微博根據(jù)表情符號自動打標(biāo)來進行訓(xùn)練。在手工打標(biāo)的測試數(shù)據(jù)集上,此網(wǎng)絡(luò)將預(yù)測錯誤率降低了25%。
本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關(guān)的神將網(wǎng)絡(luò)句子模型。第三章定義了相關(guān)的操作符和網(wǎng)絡(luò)的層。第四章闡述生成的特征圖的處理和網(wǎng)絡(luò)的其他特點。第五章討論實驗和回顧特征學(xué)習(xí)探測器。
2 背景
MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型。然后我們來闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(luò)(TDNN)[3]。在加了一個最大池化層到網(wǎng)絡(luò)后,TDNN也是一種句子模型[5]。
2.1 相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型
已經(jīng)有很多的神經(jīng)網(wǎng)絡(luò)句子模型被描述過了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡(luò)詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結(jié)果向量通過一個或多個全連接層來進行分類。
有以外部的解析樹為基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò),還有在此基礎(chǔ)上更進一步的RNN網(wǎng)絡(luò)。
最后一種是以卷積操作和TDNN結(jié)構(gòu)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)句子模型。相關(guān)的概念是動態(tài)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),我們接下來介紹的就是它。
2.2 卷積
一維卷積操作便是將權(quán)重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關(guān)聯(lián)的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:
[ci=mTsi-m+1:i (1)]
根據(jù)下標(biāo)i的范圍的不同,等式1產(chǎn)生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標(biāo)i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標(biāo)i的范圍從1到s+m-1。超出下標(biāo)范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結(jié)果是寬類型的卷積結(jié)果的子序列。
寬類型的卷積相比于窄類型的卷積有一些優(yōu)點。寬類型的卷積可以確保所有的權(quán)重應(yīng)用到整個句子,包括句子收尾的單詞。當(dāng)m被設(shè)為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應(yīng)用于輸入句子s始終會生成一個有效的非空結(jié)果集c,與m的寬度和s句子的長度無關(guān)。接下來我們來闡述TDNN的卷積層。
4 驗與結(jié)果分析
我們對此網(wǎng)絡(luò)進行了4組不同的實驗。
4.1 電影評論的情感預(yù)測
前兩組實驗是關(guān)于電影評論的情感預(yù)測的,數(shù)據(jù)集是Stanford Sentiment Treebank.實驗輸出的結(jié)果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。
表示的是電影評論數(shù)據(jù)集情感預(yù)測準(zhǔn)確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經(jīng)網(wǎng)絡(luò)模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設(shè)為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數(shù)如下,卷積層之后折疊層、動態(tài)多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態(tài)多類型池化層的k的值為4。網(wǎng)絡(luò)的最頂層是softmax層。5類分類的MCNN有相同的結(jié)構(gòu),但是濾波窗口的大小分別為10和7,k的值為5。
我們可以看到MCNN的分類效果遠(yuǎn)超其他算法。NBoW的分類效果和非神經(jīng)網(wǎng)絡(luò)算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結(jié)構(gòu)化特征,其他模型都不需要依賴外部資源。
4.2 問題分類
問題分類在問答系統(tǒng)中應(yīng)用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類別的問題,比如一個問題是否關(guān)于地點、人或者數(shù)字信息。訓(xùn)練集包含5452個打標(biāo)的問題和500個測試集。
4.3 Twitter情感預(yù)測
在我們最后的實驗里,我們用tweets的大數(shù)據(jù)集進行訓(xùn)練,我們根據(jù)tweet中出現(xiàn)的表情符號自動地給文本進行打標(biāo)簽,積極的或是消極的。整個數(shù)據(jù)集包含160萬條根據(jù)表情符號打標(biāo)的tweet以及400條手工標(biāo)注的測試集。整個數(shù)據(jù)集包含76643個單詞。MCNN的結(jié)構(gòu)和4.1節(jié)中結(jié)構(gòu)相同。隨機初始化詞向量且維度d設(shè)為60。
我們發(fā)現(xiàn)MCNN的分類效果和其他非神經(jīng)網(wǎng)絡(luò)的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。
5 結(jié)語
在本文中我們闡述了一種動態(tài)的卷積神經(jīng)網(wǎng)絡(luò),它使用動態(tài)的多類型池化操作作為非線性化取樣函數(shù)。此網(wǎng)絡(luò)在問題分類和情感預(yù)測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。
參考文獻
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
關(guān)鍵詞:個性化;信息檢索;文本分類
中圖分類號:TP311文獻標(biāo)識碼:A 文章編號:1009-3044(2008)29-0265-02
Method of Text Categorization in Personalized Retrieval
PENG Ye-ping, XIAO Da-guang
(Information science and Engineering college,Central South University,Changsha 416000,China)
Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.
Key words: personalized; retrieval; text categorization
1 引言
搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時期的用戶查詢需求,因此需要針對擁護特征向用戶提供個性化服務(wù)。文本分類方法通過構(gòu)造某種分類模型,并以此判斷樣本所屬的類別。文本分類對合理組織,存儲文本信息,提高信息檢索速度,提高個性化信息檢索效率的基礎(chǔ)。
2 分類方法
2.1 樸素貝葉斯方法
樸素貝葉斯方法是一種在已知先驗概率與條件的情況下的模式識別方法,假設(shè)詞條之間是相互獨立的。設(shè)d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯(lián)合概率來計算給定文檔的分類概率的公式如下:
計算所有文本類在給定d情況下的概率,概率值最大的那個類就是文本d所屬的類,既:
2.2 貝葉斯網(wǎng)絡(luò)分類法
貝葉斯網(wǎng)絡(luò)分類法考慮了特征之間的依賴關(guān)系,該方法更能真實反映文本的情況,但是計算復(fù)雜度比樸素貝葉斯高的多。
2.3 決策樹方法
決策樹極強的學(xué)習(xí)反義表達(dá)能力使得其適合于文本分類,它是通過一組無序,無規(guī)則的實例推理出樹型的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值進行判斷從該結(jié)點向下的分支,在決策樹的葉結(jié)點得到結(jié)論,決策樹的建立算法有很多,文獻[5]其中包括基于信息增益的啟發(fā)式計算ID3;基于信息增益率的解決聯(lián)系屬性的算法C4.5;基于Gini系數(shù)的算法CART和可并行性算法SPRINT算法。決策樹方法特點是使用者只要將訓(xùn)練樣例能夠使用屬性-結(jié)合式的方法表達(dá)出來,就能夠用該方法來學(xué)習(xí),但是這種算法生成的仍是多叉樹。
2.4 K-鄰近方法
K-鄰近方法,根據(jù)測試文本在訓(xùn)練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個重要的參數(shù),文獻[4]K值過大,則與待分類文本實際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現(xiàn)待分類文本的特點.一般對K會選定一個初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統(tǒng)中相似值的計算采用余旋相似度,則公式如下:
Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數(shù),若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權(quán)重最大的類別中去。
2.5 支持向量機
Vapnik提出在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則理論上的支持向量機方法,能有效解決小樣本集的機器學(xué)習(xí)問題,向量機主要是針對兩類分類問題,在高維空間尋找一個滿足分類要求的最優(yōu)超平作為兩類的分割,既保證分類精確度,又要使超平面兩側(cè)的空白區(qū)域最大化,以保證最小的分類錯誤率,文獻[1]對于大于兩類的多類文本分類,就對每個類構(gòu)造一個超平面,將這一類與其余的類分開,有多個類就構(gòu)造多個超平面,測試時就看哪個超平面最適合測試樣本。支持向量機方法避免了局部性問題,樣本中的支持向量數(shù),能夠有效地用于解決高緯問題。
2.6 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)是模仿人腦神經(jīng)網(wǎng)絡(luò)的基本組織特性構(gòu)成的新型信息處理系統(tǒng),其性質(zhì)取決于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)的權(quán)值和工作規(guī)則.通常由等于樣本特征數(shù)的輸入層,輸出層,等于樣本類數(shù)的神經(jīng)元組成。其中,每一個連接都有一定的權(quán)值,通過訓(xùn)練類來訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,從而使神經(jīng)網(wǎng)絡(luò)與可以正確地預(yù)測類別。
3 幾種方法的比較
3.1 樸素貝葉斯與網(wǎng)絡(luò)貝葉斯
樸素貝葉斯方法使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來實現(xiàn),但是大部分情況是文本特征之間的依賴關(guān)系是相互存在的,所以特征獨立性會影響樸素貝葉斯分類的結(jié)果;網(wǎng)絡(luò)貝葉斯能夠考慮特征之間的依賴關(guān)系,但是計算復(fù)雜度比樸素貝葉斯高得多;
3.2 支持向量機方法
支持向量機方法的優(yōu)點:首先,該方法是針對有限樣本情況的分類方法,其算法最終將轉(zhuǎn)化為一個二次型尋優(yōu)萬惡提,理論上得到的將是全局最優(yōu)點,避免了局部極值問題;其次,該方法計算的復(fù)雜度不再取決于空間維度,而是取決于樣本數(shù),這可能有效地用于解決高維度問題;再次,該方法對稀疏數(shù)據(jù)不敏感,能更好地捕捉數(shù)據(jù)的內(nèi)在特征。缺點是:該方法參數(shù)的調(diào)整比較困難,分類比較費時。
3.3 神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點:首先,具有自適應(yīng)功能,它能根據(jù)所提供的數(shù)據(jù),通過學(xué)習(xí)找出輸出結(jié)果之間的內(nèi)在聯(lián)系,從而球的問題的解答;其次,神經(jīng)網(wǎng)絡(luò)善于聯(lián)想、概括、類比和推廣,任何局部的操作都不會影響整體效果;再次,具有高速尋找優(yōu)化解的能力。缺點:該方法根據(jù)輸入輸出的關(guān)系訓(xùn)練網(wǎng)絡(luò),缺少解釋能力,受訓(xùn)練樣本影響大,訓(xùn)練過程較慢,不適應(yīng)大量數(shù)據(jù)的學(xué)習(xí)。
3.4 決策樹方法
決策樹方法的優(yōu)點是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識,只要訓(xùn)練樣例能夠使用屬性-結(jié)論式的方法表示出來,就能使用該方法。缺點是測試屬性的選擇對該方法影響較大。
3.5 K-鄰近方法
K-鄰近方法的優(yōu)點是該方法訓(xùn)練過程較快,且可隨時添加或更新訓(xùn)練文本來調(diào)整;缺點是因為需要很大的空間來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.
4 文本分類方法效果評價
1) 精確度(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與實際分類的文本數(shù)的比值,其公式如下:
精確度:=
2) 召回率(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與人工分類中應(yīng)有的文本數(shù)的比值,公式如下:
召回率:=
3) F1測試值:對查權(quán)率和查準(zhǔn)綠的綜合測試
F1測試值:=
參考文獻:
[1] 史忠植.知識發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002.
[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學(xué)出版社,2002.
[3] 王繼成,潘金貴,張福炎.web文本挖掘技術(shù)研究[J].計算機研究與發(fā)展,2000,37(5):513-520.
關(guān)鍵詞:競爭型神經(jīng)網(wǎng)絡(luò);分類;訓(xùn)練誤差;特征向量
文本分類數(shù)是據(jù)挖掘的一個重要研究領(lǐng)域,國內(nèi)外的眾多學(xué)者已經(jīng)進行了比較深入的研究,取得了不少研究成果。常見的文本分類技術(shù)有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機方法(SVM)、模糊c均值(FCM)算法和等,現(xiàn)在有很多學(xué)者把神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到分類算法中,在這些分類算法中,神經(jīng)網(wǎng)絡(luò)的文本分類更具有優(yōu)越的性能。袁飛云利用SOINN自動產(chǎn)生聚類數(shù)目和保留數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)的兩項能力,尋找更有效的單詞和設(shè)計更有效的編碼方式,提出了基于自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN)的碼書產(chǎn)生方法;申明金利用自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)以無監(jiān)督方式進行網(wǎng)絡(luò)訓(xùn)練,具有自組織功能的特點,利用自組織特征映射神經(jīng)網(wǎng)絡(luò)對不同產(chǎn)地金銀花進行分類;彭俊等將不同空氣質(zhì)量等級下的各空氣指標(biāo)作為原型模式,通過輸入樣本模式,利用競爭網(wǎng)絡(luò)的競爭特點得到勝者,以此得出空氣質(zhì)量等級;郝曉麗等通過篩選基于輪廓系數(shù)的優(yōu)秀樣木群,來尋找最佳初始聚類中心,并將該改進算法用于構(gòu)造徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)分類器和快速有效地確定隱含層節(jié)點徑向基函數(shù)中心及函數(shù)的寬度,從而提高了分類精度;孫進進利用神經(jīng)網(wǎng)絡(luò)技術(shù)中的自組織映射SOM)網(wǎng)絡(luò)對我國主要機場進行聚類分析評價,得出我國主要機場分為8層的主要結(jié)論;劉艷杰在非監(jiān)督的自組織映射神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行了一定的改進,構(gòu)建了有監(jiān)督的神經(jīng)網(wǎng)絡(luò)分類模型;李楊將神經(jīng)網(wǎng)絡(luò)與群體智能算法、云計算相結(jié)合的方法,實現(xiàn)對不同規(guī)模農(nóng)業(yè)數(shù)據(jù)集的分類,提出基于神經(jīng)網(wǎng)絡(luò)分類器的設(shè)計與優(yōu)化方法。而競爭型神經(jīng)網(wǎng)絡(luò)的自組織、自適應(yīng)學(xué)習(xí)能力,進一步拓寬了神經(jīng)網(wǎng)絡(luò)在模式分類和識別方面的應(yīng)用。競爭型神經(jīng)網(wǎng)絡(luò)依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制或競爭的作用來進行信息處理,可在訓(xùn)練中無監(jiān)督自組織學(xué)習(xí),通過學(xué)習(xí)提取數(shù)據(jù)中的重要特征或內(nèi)在規(guī)律,進而實現(xiàn)分類分析的功能。
1競爭型神經(jīng)網(wǎng)絡(luò)的描述
1.1競爭型網(wǎng)絡(luò)的結(jié)構(gòu)
競爭學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)具有R維輸入和s個輸出,由前饋層和競爭層組成。圖中的llndlstll模塊表示對輸入矢量P和神經(jīng)元權(quán)值矢量w之間的距離取負(fù)。該網(wǎng)絡(luò)的輸出層是競爭層,圖中的模塊c表示競爭傳遞函數(shù),其輸出矢量由競爭層各神經(jīng)元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關(guān)系。競爭過后只有一個神經(jīng)元有非零輸出,獲勝的神經(jīng)元指明輸入屬于哪類(每個原型向量代表一個類)。
1.2競爭型神經(jīng)網(wǎng)絡(luò)的原理
競爭型神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上,既不同于階層型的各層神經(jīng)元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競爭層構(gòu)成的兩層網(wǎng)絡(luò)。兩層之間各神經(jīng)元實現(xiàn)雙向全連接,沒有隱含層,有時競爭層各神經(jīng)元之間還存在橫向連接。在學(xué)習(xí)方法上,不是以網(wǎng)絡(luò)的誤差或能量函數(shù)的單調(diào)遞減作為算法準(zhǔn)則。而是依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制、競爭的作用來進行信息處理,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)與工作。
網(wǎng)絡(luò)在剛開始建立的時候,輸入層和輸出層之間的連接權(quán)值已經(jīng)開始了,如果與競爭層某一神經(jīng)元對應(yīng)的矢量子類別屬于線性層某個神經(jīng)元所對應(yīng)的目標(biāo)類別,則這兩個神經(jīng)元的連接權(quán)值為1,否則二者的連接權(quán)值為0,這樣的權(quán)值矩陣就實現(xiàn)了子類別到目標(biāo)類別的合并。在建立競爭型網(wǎng)絡(luò)時,每類數(shù)據(jù)占數(shù)據(jù)總數(shù)的百分比是已知的,這也是競爭層神經(jīng)元歸并到線性層的各個輸出時所依據(jù)的比例。
1.3存在的問題
競爭型神經(jīng)網(wǎng)絡(luò)按Kohonen學(xué)習(xí)規(guī)則對獲勝神經(jīng)元的權(quán)值進行調(diào)整,通過輸入向量進行神經(jīng)元權(quán)值的調(diào)整,因此在模式識別的應(yīng)用中是很有用的。通過學(xué)習(xí),那些最靠近輸入向量的神經(jīng)元權(quán)值向量得到修正,使之更靠近輸入向量,其結(jié)果是獲勝的神經(jīng)元在下一次相似的輸入向量出現(xiàn)時,獲勝的可能性更大;而對于那些與輸入向量相差很遠(yuǎn)的神經(jīng)元權(quán)值向量,獲勝的可能性將變得很小。這樣,當(dāng)經(jīng)過越來越多的訓(xùn)練樣本學(xué)習(xí)后,每一個網(wǎng)絡(luò)層中的神經(jīng)元權(quán)值向量很快被調(diào)整為最接近某一類輸入向量的值。最終的結(jié)果是,如果神經(jīng)元的數(shù)量足夠多,則具有相似輸入向量的各類模式作為輸入向量時,其對應(yīng)的神經(jīng)元輸出為1;而對于其他模式的輸入向量,其對應(yīng)的神經(jīng)元輸出為0。所以,競爭型神經(jīng)網(wǎng)絡(luò)具有對輸入向量進行學(xué)習(xí)分類的能力。
例子:以競爭型神經(jīng)網(wǎng)絡(luò)為工具,對下面的數(shù)據(jù)進行分類:
運用Matlab編程實現(xiàn),發(fā)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練誤差能達(dá)到要求,最后也能實現(xiàn)很好的分類效果。運行結(jié)果如圖2所示。
有運行結(jié)果可以看到,訓(xùn)練誤差達(dá)到要求,分類結(jié)果也很合理。
但是在實際應(yīng)用過程中,我們發(fā)現(xiàn),當(dāng)對于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)特征十分明顯的時候,本文設(shè)計的網(wǎng)絡(luò)模型可以對訓(xùn)練的數(shù)據(jù)進行合理有效的分類,但是,當(dāng)訓(xùn)練數(shù)據(jù)的特征不太明顯區(qū)分的時候,本文設(shè)計的訓(xùn)練模型的分類效果就不是太有優(yōu)勢,所得到的分類結(jié)果就不能達(dá)到我們預(yù)期的效果。
我們利用競爭型神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)樣本進行分類,其中參數(shù)設(shè)置為學(xué)習(xí)效率0.1,網(wǎng)絡(luò)競爭層有4個神經(jīng)元,運用Matlab編程實現(xiàn),發(fā)現(xiàn)結(jié)果如下:
例子:我們利用本文設(shè)計的網(wǎng)絡(luò)分類模型進行對數(shù)據(jù)分類處理:進行分類處理數(shù)據(jù)的樣本數(shù)據(jù)如下所示:
通過運行學(xué)習(xí)發(fā)現(xiàn)訓(xùn)練誤差較大,分類結(jié)果也達(dá)不到要求。
2改進的方法
2.1問題分析
通過比較分析我們發(fā)現(xiàn),上面的數(shù)據(jù)樣本沒有明顯的分類特征,所以,以競爭型神經(jīng)網(wǎng)絡(luò)進行分類,其輸入向量僅僅依靠數(shù)據(jù)本身的固有的特征時不夠的,但我們可以把數(shù)據(jù)樣本看作是二維數(shù)據(jù),假設(shè)同符號的特征值為1,不同符號的特征值為2,于是一個新的訓(xùn)練樣本就確定了,即成為三維數(shù)據(jù)模型。
2.2改進的算法
第一步:給定數(shù)據(jù)集X=[X1,X2……,Xi),對網(wǎng)絡(luò)進行初始化,隨機給定網(wǎng)絡(luò)競爭層與輸入層間的初始權(quán)向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競爭層間的連接權(quán)值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權(quán)矢量)。
第二步:創(chuàng)建競爭型神經(jīng)網(wǎng)絡(luò),首先根據(jù)給定的問題確定訓(xùn)練樣本的輸入向量,當(dāng)學(xué)習(xí)模式樣本本身雜亂無章,沒有明顯的分類特征,網(wǎng)絡(luò)對輸入模式的響應(yīng)呈現(xiàn)震蕩的現(xiàn)象,不足以區(qū)分各類模式時,在創(chuàng)建網(wǎng)絡(luò)之前,提取訓(xùn)練樣本的特征值,設(shè)置輸入樣本的特征向量,然后再創(chuàng)建網(wǎng)絡(luò)模型,并根據(jù)模式分類數(shù)確定神經(jīng)元的數(shù)目,最后任取一輸入模式Ak。
第三步:計算競爭層各神經(jīng)元的輸入值si:
第四步:對本文建立的網(wǎng)絡(luò)進行訓(xùn)練學(xué)習(xí),網(wǎng)絡(luò)訓(xùn)練最大次數(shù)的初始值設(shè)置為230,當(dāng)訓(xùn)練誤差大于預(yù)期的設(shè)定值的時候,可以嘗試增加訓(xùn)練的最大次數(shù),按“勝者為王”(Winner Takes All)原則,將訓(xùn)練網(wǎng)絡(luò)中獲得最接近預(yù)期值的神經(jīng)元作為勝者,輸出狀態(tài)設(shè)置為1,沒有獲勝的神經(jīng)元的輸出狀態(tài)設(shè)置為0。如果有兩個以上神經(jīng)元的sj相同,取左邊的為獲勝單元。
第五步:獲勝神經(jīng)元連接權(quán)修正如下:
第六步:另選一學(xué)習(xí)模式,返回步驟3,直至所有學(xué)習(xí)模式提供一遍。
第七步:如果不滿足要求,則返回到最初的訓(xùn)練狀態(tài),反復(fù)訓(xùn)練直至訓(xùn)練網(wǎng)絡(luò)中神經(jīng)元獲得最接近預(yù)期值,最終的訓(xùn)練結(jié)束。
第八步:根據(jù)測試樣本利用Matlab編寫程序進行仿真實驗。
通過實例訓(xùn)練,我們發(fā)現(xiàn)本算法和改進前的算法相比,改進后的算法訓(xùn)練誤差卻大大降低,已經(jīng)達(dá)到了訓(xùn)練的精度要求,同時也很好地實現(xiàn)了分類要求。
法,并介紹了在TMS320C540
>> 一種新的基于改進的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 AVS解碼器流水線控制機制的一種改進設(shè)計 一種SoC架構(gòu)的AVS硬件解碼器設(shè)計方案 一種基于BP神經(jīng)網(wǎng)絡(luò)整定的PID控制器的算法改進 一種基于改進的BP神經(jīng)網(wǎng)絡(luò)的入侵檢測方法 基于一種改進BP神經(jīng)網(wǎng)絡(luò)算法的教學(xué)質(zhì)量評價研究 一種基于ART2神經(jīng)網(wǎng)絡(luò)的算法改進 一種基于改進BP神經(jīng)網(wǎng)絡(luò)預(yù)測T/R組件溫度的方法 一種基于改進神經(jīng)網(wǎng)絡(luò)的高效模糊聚類算法 一種基于模糊神經(jīng)網(wǎng)絡(luò)的印刷品字符識別器 一種基于遺傳神經(jīng)網(wǎng)絡(luò)文本分類器的研究 一種新的基于灰色關(guān)聯(lián)分析的BP神經(jīng)網(wǎng)絡(luò)剪枝算法 一種新的基于神經(jīng)網(wǎng)絡(luò)的IRT項目參數(shù)估計模型 一種基于短語統(tǒng)計機器翻譯的高效柱搜索解碼器 一種基于SOM神經(jīng)網(wǎng)絡(luò)的污水處理工藝方案比選方法 一種基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)控機床伺服系統(tǒng)控制器 一種改進的BP神經(jīng)網(wǎng)絡(luò)算法在入侵檢測中的應(yīng)用 一種改進的BP神經(jīng)網(wǎng)絡(luò)車牌識別算法的研究 一種改進的BP神經(jīng)網(wǎng)絡(luò)算法分析 一種ART2神經(jīng)網(wǎng)絡(luò)的改進算法 常見問題解答 當(dāng)前所在位置:中國 > 科技 > 一種新的基于改進的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 一種新的基于改進的ADALINE神經(jīng)網(wǎng)絡(luò)的DTHF解碼器方案 雜志之家、寫作服務(wù)和雜志訂閱支持對公帳戶付款!安全又可靠! document.write("作者:未知 如您是作者,請告知我們")
申明:本網(wǎng)站內(nèi)容僅用于學(xué)術(shù)交流,如有侵犯您的權(quán)益,請及時告知我們,本站將立即刪除有關(guān)內(nèi)容。 摘 要:本文提出了一種新的基于改進的AD址INE神經(jīng)網(wǎng)絡(luò)DTMF信號檢測算
法,并介紹了在TMS320C5402和TLV320AICl0上采用此算法的DTMF
關(guān)鍵詞:極限學(xué)習(xí)機;稀疏自動編碼器;集成學(xué)習(xí);文本分類
1 概述
隨著現(xiàn)代社會的發(fā)展,互聯(lián)網(wǎng)成為了人們獲取文本信息的重要手段。然而網(wǎng)上的信息雜亂無章,使得人們很難快速而準(zhǔn)確的獲得所需要的文本信息。因此如何有效的對文本進行分類,幫助用戶找到所需的信息成為當(dāng)代信息技術(shù)領(lǐng)域的一個重要課題[1]。
本文提出利用深度學(xué)習(xí)中的稀疏自動編碼器自動選取文本的特征,然后利用極限學(xué)習(xí)機作為基分類器進行文本的分類,最后結(jié)合Adaboost集成學(xué)習(xí)方法將極限學(xué)習(xí)機作為基分類器組合成一個效果更好的分類器。實驗結(jié)果表明,該算法在文本分類方面,可以有效地提高文本分類的準(zhǔn)確性。
2 相關(guān)理論基礎(chǔ)
2.1 稀疏自動編碼器
稀疏自動編碼器(sparse auto encoder,SAE)是利用人工神經(jīng)網(wǎng)絡(luò)的特點構(gòu)造而成的網(wǎng)絡(luò)。稀疏自動編碼器的訓(xùn)練過程分為兩個步:第一步是預(yù)訓(xùn)練,即先利用無監(jiān)督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓(xùn)練算法確定網(wǎng)絡(luò)的參數(shù)。第二步是微調(diào),其思想是整個網(wǎng)絡(luò)視為一個整體,用有監(jiān)督學(xué)習(xí)的方法優(yōu)化整個網(wǎng)絡(luò)的參數(shù),由于SAE訓(xùn)練過程的復(fù)雜性,具體過程可參考文獻[2]。
2.2 極限學(xué)習(xí)機
針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程時間漫長,優(yōu)化困難等缺點,新加坡南洋理工大學(xué)的黃廣斌教授提出了一種全新的單隱層前饋神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(Extreme Learning Machine,ELM)[3],該網(wǎng)絡(luò)能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制。該網(wǎng)絡(luò)主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經(jīng)元通過激活函數(shù)把輸入的數(shù)據(jù)進行變換,然后把變換后的數(shù)據(jù)輸出到輸出層,在網(wǎng)絡(luò)中輸入層和隱藏層的權(quán)值是隨機設(shè)置的,只有隱藏層到輸出層的權(quán)值需要求解,因此加快了網(wǎng)絡(luò)的學(xué)習(xí)速度。
2.3 Adaboost分類器
由于單個分類器通常無法滿足分類任務(wù)的要求,因此需要通過集成學(xué)習(xí)來構(gòu)建并結(jié)合多個分類器來完成分類任務(wù),這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓(xùn)練集訓(xùn)練出一個基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的變現(xiàn)對訓(xùn)練樣本分布進行調(diào)整,使得先前基學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)收到更多關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個基學(xué)習(xí)器;如此重復(fù)進行,直到基學(xué)習(xí)器數(shù)目達(dá)到指定的值,最終將這幾個基學(xué)習(xí)器進行加權(quán)結(jié)合。Adaboost是一種迭代算法,具體訓(xùn)練過程可參考南京大學(xué)周志華教授編寫的機器學(xué)習(xí)課本中關(guān)于Adaboost算法的章節(jié)。
3 SEA文本分類算法
在本文中,結(jié)合稀疏編碼器,極限學(xué)習(xí)機與Adaboost這三種機器學(xué)習(xí)方法提出SEA文本分類算法,該算法的工作流程如圖1所示。
該分類算法的第一步為輸入,輸入的是經(jīng)過了向量化表示的文本,但沒有經(jīng)過任何的手工特征提取。第二步是利用SAE算法對數(shù)據(jù)的重建能力自動選擇文本的特征,用SAE算法選擇的文本特征可以有效地復(fù)原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓(xùn)練,最后一步是輸出該文本屬于哪一類。
4 實驗結(jié)果與分析
4.1 實驗數(shù)據(jù)集與評價指標(biāo)
本文選用的分類文本數(shù)據(jù)來源于新聞數(shù)據(jù)集[5],該數(shù)據(jù)集復(fù)旦大學(xué)計算機信息與技術(shù)系李榮陸提供,數(shù)據(jù)集標(biāo)注比較規(guī)范,規(guī)模適中,適合于進行文本分類的仿真實驗。
在文本分類中常用的評價指標(biāo)有準(zhǔn)確率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M為正確分類到該類的文本數(shù),N為錯分到該類中的文本數(shù),T為屬于該類確誤分為別類的文本數(shù)。
4.2 實驗結(jié)果
為驗證本文提出的SEA文本分類模型,需要將文本數(shù)據(jù)集進行預(yù)處理,對于SEA模型來說,就是進行文本分詞。本實驗文本分詞采用的是NLPIR漢語分詞系統(tǒng),其主要功能包括中文分詞,詞性標(biāo)注,命名實體識別,用戶字典功能等,是國內(nèi)比較成熟,用戶較多的中文文本分詞系統(tǒng)。經(jīng)過文本預(yù)處理后,按照本文提出的SEA文本分模型進行實驗,并和幾種經(jīng)典的分類算法做對比。在本實驗中Adaboost集成學(xué)習(xí)算法中基分類器的個數(shù)設(shè)置為10個,基分類器ELM中隱藏層的個數(shù)設(shè)置為輸入層的0.75倍,稀疏自動編碼器中隱藏層數(shù)設(shè)置為4,實驗結(jié)果如表1和表2所示。
從表1和表2可以看出隨著文本數(shù)量的增加,SEA模型的分類準(zhǔn)確率和召回率逐漸提高,這是由于在訓(xùn)練數(shù)據(jù)集較小時,稀疏編碼器對自動提取的文本特征變現(xiàn)地不是很理想,容易造成SEA分類模型產(chǎn)生過擬合現(xiàn)象,從而影響分類準(zhǔn)確率和召回率。SVM算法在訓(xùn)練數(shù)據(jù)集比較小時,變現(xiàn)良好,這是由于在訓(xùn)練數(shù)據(jù)較少時,可以較容易地找到分類超平面,在數(shù)據(jù)量變大時,由于計算量的增大,使得計算量變大,導(dǎo)致計算得到的超平面效果不好,使得分類準(zhǔn)確率和召回率不斷下降。BP和ELM算法都隨著訓(xùn)練數(shù)據(jù)的增大,其分類準(zhǔn)確率和召回率在不斷變大,這是由于隨著訓(xùn)練數(shù)據(jù)的增大,BP和ELM可以更有效的提取輸入數(shù)據(jù)的特征,但ELM算法相比BP算法變現(xiàn)得更好,這是由于BP算法可能無法收斂到最優(yōu)值,導(dǎo)致分類算法的準(zhǔn)確率下降。
綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準(zhǔn)確率和召回率,尤其是隨著訓(xùn)練數(shù)據(jù)集的不斷增大。
5 結(jié)束語
文本分類在文本處理中占據(jù)著重要的地位,其分類的好壞直接影響著后續(xù)的文本處理,如何有效地對文本分類是一個重要的研究課題。本文結(jié)合稀疏自動編碼器,極限學(xué)習(xí)機與Adaboost集成學(xué)習(xí)方法提出SEA文本分類方法,實驗結(jié)果表明該分類方法可以有效將文本分類過程中的特征提取和分類器結(jié)合在一起,從而提高了分類結(jié)果的準(zhǔn)確性。
參考文獻
[1]秦勝君,盧志平.稀疏自動編碼器在文本分類中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(31):9422-9426.
[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.
[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.
[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語言模型
CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進行降維并且減少了待估計參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時,將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析
CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個性化推薦等NLP任務(wù),下面將對這些應(yīng)用進行具體的介紹與分析。
2.1 CNN在文本分類中的應(yīng)用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進一步提高了性能實現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進行計算,然后將計算結(jié)果進行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗證集及測試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價與消極評價兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實驗證明,該方法在這幾個典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進行訓(xùn)練。該方法除了標(biāo)簽預(yù)測任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標(biāo)簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標(biāo)簽通過評分函數(shù)對任何給定的主題標(biāo)簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對分?jǐn)?shù)f(w,t)進行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進行推薦。實驗數(shù)據(jù)集采用了兩個大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。