摘要:在機器學習和數(shù)據(jù)庫等領(lǐng)域,高質(zhì)量數(shù)據(jù)集的合成一直以來是一個非常重要且充滿挑戰(zhàn)性的問題.其中,合成的高質(zhì)量數(shù)據(jù)集可用來改善模型,尤其是深度學習模型的訓練過程.一個健壯的模型訓練過程需要大量已標注的數(shù)據(jù)集,獲取這些數(shù)據(jù)集的一種方法是通過領(lǐng)域?qū)<业氖謩訕俗?這種方法不僅代價大還容易出錯,因此由模型自動合成高質(zhì)量數(shù)據(jù)集的方法更為合理.近年來,由于計算機視覺領(lǐng)域的飛速發(fā)展,已經(jīng)有不少致力于圖像數(shù)據(jù)集合成的研究,但是這些模型不能直接應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)表上,并且據(jù)調(diào)研,對這類數(shù)據(jù)的相關(guān)研究幾乎沒有.因此,提出了一個針對結(jié)構(gòu)化數(shù)據(jù)表的生成模型TableGAN,該模型是生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)家族的一種變體,通過對抗訓練的方式提高生成模型的性能.針對結(jié)構(gòu)化數(shù)據(jù)的特征改變了傳統(tǒng)GAN模型的內(nèi)部結(jié)構(gòu),包括優(yōu)化函數(shù)等,使其能夠生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)用于改善模型的訓練過程.通過在真實數(shù)據(jù)集上的大量實驗表明了此模型的有效性,即在擴大后的數(shù)據(jù)集上訓練模型的效果有明顯提升.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社