首頁 > 期刊 > 計(jì)算機(jī)學(xué)報(bào) > 基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法【正文】

基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法

實(shí)體識(shí)別多路分塊候選對(duì)選擇數(shù)據(jù)集成數(shù)據(jù)清洗

作者：孫琛琛; 申德榮; 寇月; 聶鐵錚; 于戈東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院; 沈陽110169

摘要：實(shí)體識(shí)別是數(shù)據(jù)集成和數(shù)據(jù)清洗的一個(gè)重要方面.針對(duì)Pay-as-you-go數(shù)據(jù)管理需求,本文提出一個(gè)基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法.該方法不要求提供最優(yōu)的分塊或排序的鍵,并且可以直接找出臟數(shù)據(jù)集中冗余度最大的區(qū)域.分為兩個(gè)階段,初始化階段和迭代階段.在初始化階段,初步地生成候選數(shù)據(jù)對(duì)象對(duì),并按匹配可能性排序后加入到候選隊(duì)列.在迭代階段,每次選擇候選隊(duì)列隊(duì)首的候選對(duì)(即最可能匹配的)來處理,并且根據(jù)實(shí)時(shí)的實(shí)體識(shí)別結(jié)果,動(dòng)態(tài)地更新候選對(duì)的匹配可能性,調(diào)整候選隊(duì)列.這樣減少了無用的數(shù)據(jù)對(duì)象比較,使得實(shí)時(shí)的識(shí)別結(jié)果最優(yōu)化.通過在真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比,說明本文提出的基于多路分塊的Pay-as-you-go實(shí)體識(shí)別方法顯著地優(yōu)于已有工作中提出的方法.

注：因版權(quán)方要求，不能公開全文，如需全文，請(qǐng)咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱

計(jì)算機(jī)學(xué)報(bào)

北大期刊下單

國際刊號(hào)：0254-4164

國內(nèi)刊號(hào)：11-1826/TP

雜志詳情

相關(guān)熱門期刊

湖北民族大學(xué)學(xué)報(bào)·哲學(xué)社會(huì)科學(xué)版

北大期刊下單

國際刊號(hào)：2096-7586

國內(nèi)刊號(hào)：42-1907/C
電腦迷

北大期刊下單

國際刊號(hào)：1672-528X

國內(nèi)刊號(hào)：50-1163/TP
語言測(cè)試與評(píng)價(jià)

北大期刊下單
亞洲史研究

北大期刊下單