摘要:實(shí)體識(shí)別是數(shù)據(jù)集成和數(shù)據(jù)清洗的一個(gè)重要方面.針對(duì)Pay-as-you-go數(shù)據(jù)管理需求,本文提出一個(gè)基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法.該方法不要求提供最優(yōu)的分塊或排序的鍵,并且可以直接找出臟數(shù)據(jù)集中冗余度最大的區(qū)域.分為兩個(gè)階段,初始化階段和迭代階段.在初始化階段,初步地生成候選數(shù)據(jù)對(duì)象對(duì),并按匹配可能性排序后加入到候選隊(duì)列.在迭代階段,每次選擇候選隊(duì)列隊(duì)首的候選對(duì)(即最可能匹配的)來處理,并且根據(jù)實(shí)時(shí)的實(shí)體識(shí)別結(jié)果,動(dòng)態(tài)地更新候選對(duì)的匹配可能性,調(diào)整候選隊(duì)列.這樣減少了無用的數(shù)據(jù)對(duì)象比較,使得實(shí)時(shí)的識(shí)別結(jié)果最優(yōu)化.通過在真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比,說明本文提出的基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法顯著地優(yōu)于已有工作中提出的方法.
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社