摘要:對由多個(gè)指標(biāo)組成的多元數(shù)據(jù)進(jìn)行聚類分析時(shí),數(shù)據(jù)維度的增加、各指標(biāo)與總體聚類的相關(guān)性程度不一致以及各指標(biāo)服從的分布不同會增加聚類的復(fù)雜性,影響聚類結(jié)果的準(zhǔn)確性,因此需要通過合適的方法來對多元數(shù)據(jù)進(jìn)行聚類分析。針對這一問題,提出改進(jìn)的帶粘性的層次Dirichlet過程(sticky Hierarchical Dirichlet Process)方法來實(shí)現(xiàn)對多元數(shù)據(jù)的降維聚類,以解決各指標(biāo)服從不同分布的問題,并用粘性參數(shù)反映各指標(biāo)與總體聚類之間的相關(guān)性。用MCMC方法來估計(jì)模型參數(shù)。通過對仿真模擬數(shù)據(jù)和IRIS數(shù)據(jù)集的聚類分析,證實(shí)了該方法的有效性,同時(shí)發(fā)現(xiàn)單個(gè)指標(biāo)與總體聚類的相關(guān)性越大,則相應(yīng)的粘性參數(shù)越大,從而反映該指標(biāo)在總體聚類中的重要性程度越高;并且當(dāng)各指標(biāo)數(shù)據(jù)中有粘性較大的指標(biāo)時(shí),帶粘性的層次Dirichlet過程方法明顯優(yōu)于其他聚類方法,能夠顯著提高分類的準(zhǔn)確性。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社