摘要:非頻繁項集是未被標準化的頻繁項集產(chǎn)生算法(如APRIORI以及FP-Growth算法)提取的所有項集.在數(shù)據(jù)集上挖掘有意義的非頻繁項集是數(shù)據(jù)挖掘的重要工作之一.目前,基于傳統(tǒng)數(shù)據(jù)集的非頻繁項集挖掘研究主要集中在負相關、負模式以及間接關聯(lián)等方面,且主要是對整個數(shù)據(jù)集上的性質(zhì)進行分析,而沒有對數(shù)據(jù)集的切片進行分析.該文提出了一種新的模式,試圖找到符合如下條件的特定子群,其描述的數(shù)據(jù)集切片上存在某些特殊項集,這些項集在整個數(shù)據(jù)集上并非頻繁項集,但是在該數(shù)據(jù)集切片上卻是頻繁項集.根據(jù)用戶要求自動找出這些異常子群以及其對應項集的算法在數(shù)據(jù)分析中有著十分重要的意義.該文提出的解決方案由兩部分組成:候選產(chǎn)生階段以及查詢交互階段.前者是一個脫機處理的過程,而后者則是在線實時反饋的過程.在候選產(chǎn)生階段,該文提出了一種基于多維數(shù)據(jù)集高效產(chǎn)生頻繁項集以及顯著子群并有效建立索引的算法.根據(jù)索引,在查詢交互階段,該文提出的算法框架可以快速準確地返回給定查詢對應的異常子群以及對應項集.基于多個真實數(shù)據(jù)集的實驗表明,該文提出的方案可以根據(jù)用戶要求實時返回有意義的異常子群以及對應項集.此外,該文提出的算法在多維數(shù)據(jù)集上的挖掘效率比UTMTU算法提升了數(shù)倍.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社