摘要:關(guān)系抽取是自然語言處理的重要研究內(nèi)容,是知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)。目前,在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制進(jìn)行關(guān)系抽取成為主流方法,現(xiàn)有方法一般結(jié)合句子單詞和實(shí)體相關(guān)性計(jì)算注意力,沒有考慮短語和實(shí)體關(guān)系之間的相關(guān)性,并且對(duì)實(shí)體信息利用不夠充分。針對(duì)該問題,提出基于短語級(jí)注意力機(jī)制的關(guān)系抽取方法。首先用卷積層對(duì)詞向量做卷積,以滑動(dòng)窗口的方式得到短語級(jí)的向量表示,然后利用短語與實(shí)體關(guān)系之間的相關(guān)性計(jì)算注意力。為了使實(shí)體信息利用更充分,用卷積層和池化層分別提取實(shí)體短語的深度特征表示,并引入TransE的思想表示兩個(gè)實(shí)體關(guān)系的特征。最后,采用分段池化方法得到深度特征。為了減少遠(yuǎn)程監(jiān)督中錯(cuò)誤標(biāo)簽的干擾,使用標(biāo)簽平滑正則化(LSR)把原來的“硬”標(biāo)簽改為“軟”標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效利用短語信息和實(shí)體關(guān)系信息,對(duì)實(shí)體關(guān)系抽取效果有較大的提升。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
國際刊號(hào):2096-7586
國內(nèi)刊號(hào):42-1907/C