摘要:當前,卷積神經(jīng)網(wǎng)絡(luò)已在圖像分類、目標檢測等計算機視覺領(lǐng)域被廣泛應(yīng)用。然而,在前向推斷階段,許多實際應(yīng)用往往具有低延時和嚴格的功耗限制。針對該問題,采用參數(shù)重排序、多通道數(shù)據(jù)傳輸?shù)葍?yōu)化策略,設(shè)計并實現(xiàn)了一種基于FPGA的SIMD卷積神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)。以YOLOv2目標檢測算法為例,介紹了將卷積神經(jīng)網(wǎng)絡(luò)模型映射到FPGA上的完整流程;對加速器的性能和資源耗費進行深入分析和建模,將實際傳輸延時考慮在內(nèi),縮小了加速器理論時延與實際時延的誤差;改進了加速器架構(gòu)中的輸入和輸出模塊,有效提高了總線帶寬的實際利用率。實驗結(jié)果表明,在Zedboard上獲得了30.15 GOP/s的性能,與Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;與雙核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社