摘要:針對(duì)流式文檔結(jié)構(gòu)理解中構(gòu)件識(shí)別特征分析的不足,提出一種基于融合特征的構(gòu)件識(shí)別方法。首先建立格式向量表示字體等構(gòu)件格式特征,提取文檔構(gòu)件中關(guān)鍵字等內(nèi)容特征作為內(nèi)容向量,分別計(jì)算待識(shí)別構(gòu)件兩種特征與候選構(gòu)件的得分并對(duì)其加權(quán)計(jì)算,得出候選的構(gòu)件標(biāo)簽;結(jié)合自頂向下和自底向上的結(jié)構(gòu)識(shí)別方法,得到文檔的邏輯結(jié)構(gòu)。通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法能有效提高文檔構(gòu)件識(shí)別的準(zhǔn)確率,同時(shí)提高了文檔結(jié)構(gòu)識(shí)別的準(zhǔn)確率。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
部級(jí)期刊 下單
國(guó)際刊號(hào):1674-6864
國(guó)內(nèi)刊號(hào):11-5866/N
雜志詳情國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C