ASV-Subtools的設(shè)計理念在于代碼高度復(fù)用的同時保持模塊分化和開發(fā)自由,因此具有高效性、可讀性、通用性、靈活性四大特性。使用者可以輕松上手并只需通過簡單的編輯配置文件就能探索不同的網(wǎng)絡(luò)架構(gòu),實現(xiàn)最優(yōu)異的性能。
一、項目分類
關(guān)鍵核心技術(shù)突破
二、成果簡介
聲紋識別是指從說話人的語音信號中提取聲紋特征,并通過有效的分類識別模型,對說話人的身份進行校驗和鑒別。聲紋識別廣泛應(yīng)用于刑偵、人機交互聲紋口令驗證、銀行聲紋身份驗證等領(lǐng)域。得益于深度學(xué)習(xí)的發(fā)展,聲紋識別的性能在不斷提升,但落地難度也相應(yīng)提高。
ASV-Subtools是廈門大學(xué)智能語音實驗室(XMUSPEECH)于2020年6月推出的一套高效、易于擴展的聲紋識別開源工具,該工具是基于Kaldi與Pytorch開發(fā)的,充分結(jié)合了Kaldi 在語音信號和后端處理的高效性以及PyTorch 開發(fā)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的便捷靈活性。自開源以來,ASV-Subtools就以卓越的性能和靈活便捷的框架受到國內(nèi)外重點科研院所和研發(fā)人員的青睞。
ASV-Subtools的設(shè)計理念在于代碼高度復(fù)用的同時保持模塊分化和開發(fā)自由,因此具有高效性、可讀性、通用性、靈活性四大特性。使用者可以輕松上手并只需通過簡單的編輯配置文件就能探索不同的網(wǎng)絡(luò)架構(gòu),實現(xiàn)最優(yōu)異的性能。
相較于語音領(lǐng)域的其他開源工具,ASV-Subtools專注于聲紋領(lǐng)域的研究,不僅先后為東方語種、CNSRC等國內(nèi)外知名競賽中提供基線系統(tǒng)和技術(shù)支持,同時在聲紋領(lǐng)域公開的VoxCeleb數(shù)據(jù)集上也在不斷刷新著SOTA的結(jié)果。
為了加快聲紋產(chǎn)品的落地,廈門大學(xué)智能語音實驗室(XMUSPEECH)與廈門天聰智能軟件有限公司(TalentedSoft)合作,共同為ASV-Subtools的開發(fā)與更新做出貢獻。目前ASV-Subtools已打通聲紋識別從算法研究到產(chǎn)品落地的全流程,技術(shù)成熟度已達到可以量產(chǎn)的水平。
GitHub:https://github.com/Snowdar/asv-subtools
掃碼關(guān)注,查看更多科技成果