摘要:聲學(xué)場(chǎng)景中包含著很多長(zhǎng)時(shí)特征和短時(shí)特征。本文提取環(huán)境聲的能量信息,批量生成聲音場(chǎng)景的三維語(yǔ)譜圖,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。神經(jīng)網(wǎng)絡(luò)采用卷積層和下采樣層重復(fù)交疊,整體網(wǎng)絡(luò)采用六層網(wǎng)絡(luò)結(jié)構(gòu),最終經(jīng)過(guò)softmax方法進(jìn)行多分類。實(shí)驗(yàn)采用DCASE2017競(jìng)賽數(shù)據(jù)集作為素材,對(duì)15類6300段音頻進(jìn)行訓(xùn)練測(cè)試,結(jié)果表明,語(yǔ)譜圖特征與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的算法能夠很好的提取長(zhǎng)時(shí)特征和短時(shí)特征,使得最終分類準(zhǔn)確率較高,優(yōu)于網(wǎng)站基線系統(tǒng)的分類結(jié)果。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
部級(jí)期刊 下單
國(guó)際刊號(hào):1673-4793
國(guó)內(nèi)刊號(hào):11-5379/N
雜志詳情國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C