摘要:不均衡數(shù)據(jù)分類是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)難點(diǎn)問(wèn)題,對(duì)多數(shù)類樣本進(jìn)行降采樣可簡(jiǎn)單且有效地解決不均衡數(shù)據(jù)處理面臨的兩大核心問(wèn)題,即如何從數(shù)類占絕對(duì)優(yōu)勢(shì)的數(shù)據(jù)集合中最大程度地挖掘少數(shù)類信息;如何確保在不過(guò)度損失多數(shù)類信息的前提下構(gòu)建學(xué)習(xí)器.但現(xiàn)有的降采樣方法往往會(huì)破壞原始數(shù)據(jù)結(jié)構(gòu)特性或造成嚴(yán)重的信息損失.本研究提出一種基于分層抽樣的不均衡數(shù)據(jù)集成分類方法(簡(jiǎn)記為EC-SS),通過(guò)充分挖掘多數(shù)類樣本的結(jié)構(gòu)信息,對(duì)其進(jìn)行聚類劃分;再在數(shù)據(jù)塊上進(jìn)行分層抽樣來(lái)構(gòu)建集成學(xué)習(xí)數(shù)據(jù)成員,以確保單個(gè)學(xué)習(xí)器的輸入數(shù)據(jù)均衡且保留原始數(shù)據(jù)的結(jié)構(gòu)信息,提升后續(xù)集成分類性能.在不均衡數(shù)據(jù)集Musk1、Ecoli3、Glass2和Yeast6上,對(duì)比EC-SS方法與基于隨機(jī)抽樣的不均衡數(shù)據(jù)集成分類方法、自適應(yīng)采樣學(xué)習(xí)方法、基于密度估計(jì)的過(guò)采樣方法和代價(jià)敏感的大間隔分類器方法的分類性能,結(jié)果表明,EC-SS方法能有效提升分類性能.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
CSSCI南大期刊 下單
國(guó)際刊號(hào):1000-260X
國(guó)內(nèi)刊號(hào):44-1030/C
雜志詳情國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C