
開源 | MagicData-RAMC :180小時中文對話式語音數據集正式發布
發布時間 : 2022-04-15 閱讀量 : 4684
為了進一步豐富開源語音語料庫,促進語音語言處理技術的發展,聯合中科院聲學研究所、上海交通大學和西北工業大學,在Magichub開源社區正式開源180小時中文對話式語音數據集MagicData-RAMC。MagicData-RAMC是一批高質量且標注豐富的訓練數據,可以很好地支持開發者完成語音識別和說話人日志相關的研究。
數據集下載地址 https://magichub.com/datasets/magicdata-ramc/
論文地址 https://arxiv.org/abs/2203.16844
基線地址 https://github.com/MagicHub-io/MagicData-RAMC-Challenge
同時,(北京優惠活動大廳科技有限公司)聯合中科院聲學研究所、上海交通大學和西北工業大學基于MagicData-RAMC完成了語音識別、說話人日志和關鍵詞檢索的相關研究,該工作已投稿語音領域頂級會議Interspeech 2022。
【數據簡介】
MagicData-RAMC包括351組多輪普通話對話,時長共計180小時。每組對話的標注信息包括轉錄文本、語音活動時間戳、說話人信息、錄制信息和話題信息。說話人信息包括了性別、年齡和地域,錄制信息包括了環境和設備。
【數據收集】
MagicData-RAMC數據均于室內采集。聲學環境為不足20平米的房間,混響時間(RT60)小于0.4秒。環境噪音水平低于40dB(A),錄制過程中環境相對安靜。所有錄制的參與者都是以中文為母語的流利普通話使用者,他們的口音略有不同。
音頻由開發的手機應用程序錄制,錄制使用的手機均是主流的智能手機,其中安卓和IOS系統的使用比例約1:1。音頻文件為16比特采樣點,采樣率為16KHz,錄音質量比同類型的對話語音語料庫(如HKUST/MTS、SwitchBoard、Fisher)更高。
轉錄文本由人工標注并由專業檢驗員校對。MagicData-RAMC標注信息非常豐富,在語音內容轉寫結果的基礎上,還標注了非語言信息,包括笑聲、音樂聲、噪聲等。口語對話中常見的猶豫、重復等語言不流暢的現象也被標注出來。對話中每個說話人的起始時間戳也被標注出來,可以用于說話人日志相關的研究。
【數據分布】
性別和地域分布均衡:為了盡可能地反應真實世界中的對話場景,MagicData-RAMC在收集過程中保證了性別和地域的均衡性,以及話題的多樣性。MagicData-RAMC中共計663為說話人,其中男性368人、女性295人,來自北方334人、南方329人。性別、地域和省份分布的餅狀圖1、圖2、圖3所示。
話題豐富多樣:在每一組多輪對話,兩位說話人僅圍繞一個主題開展自然對話,平均時長30分鐘。說話人靈活地回應對方,而非死板地問答。因此,每組對話的主題是連貫的,歷史的對話與當前的內容密切相關,非常適合用于研究對話式的語音識別任務[6]。MagicData-RAMC涵蓋了15類話題,話題的多樣性以及對話中話題的一致性適合研究開放領域的口語對話任務。MagicData-RAMC話題分布餅狀圖如圖4所示。
【基線系統】
以中科院聲學研究所為首的研究團隊基于MagicData-RAMC數據集完成了語音識別、關鍵詞檢索和說話人日志的相關研究。官方將MagicData-RAMC數據集劃分為150小時的訓練集、10小時的開發集和20小時的測試集。下面簡要介紹基線系統。
語音識別:在語音識別任務中,他們使用開源工具ESPnet[1]訓練Conformer[2]模型,訓練數據包括755小時MagicData-READ和150小時MagicData-RAMC。其中MagicData-READ可以從開源社區OpenSLR獲取。開發集、測試集的字錯誤率(Character Error Rate, CER)分別為16.5%和19.1%。
關鍵詞檢索:在關鍵詞檢索任務中,他們基于Comformer模型和動態時間對齊算法[3],檢索200個關鍵詞。關鍵詞隨MagicData-RAMC數據集一同公布。開發集的關鍵詞準確率和召回率分別為86.98%和89.57%;測試集的關鍵詞準確率和召回率分別為85.87%和88.79%。
說話人日志:在說話人日志任務中,他們主要使用了開源工具Kaldi[4]搭建說話人日志系統,系統包括說話人活動性檢測模塊、說話人特征提取模塊和貝葉斯隱馬爾可夫聚類模塊[5]。開發集、測試集的日志錯誤率(Diarization Error Rate, DER)分別為5.57%和7.96% (collar 0.25)。
【排行榜】
2021年7月至10月,、中科院聲學研究所和江蘇師范大學主辦了“對話式AI語音識別及說話人識別挑戰賽”。為了幫助參賽者快速、高質量地完成模型開發和訓練,主辦方提供了基礎腳本和基線模型,提供給參賽者使用。基線地址:https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge
比賽過程中發布的訓練集和開發集與MagicData-RAMC中的訓練集和開發集一致。比賽分為兩個賽道——“對話場景下的語音識別(Automatic Speech Recognition, ASR)準確率”和“對話場景下的說話人識別(Speaker Diarization, SD)準確率”。
現在發布的MagicData-RAMC進一步公開了比賽使用的測試數據。當時ASR賽道前5名參賽隊伍的CER公布如下:
SD賽道前5名參賽隊伍的DER公布如下:
4月18日,我們將在Magichub開源社區繼續開放此數據集的測評比賽,敬請關注!更多詳情請見:https://magichub.com/
目前,Magichub.com開源社區共開源超過100個數據集,數據類型涵蓋ASR、TTS、NLP、發音詞典等,開源數據語言包括中文、英語、德語、意大利語、阿拉伯語等眾多語種。未來,更多語種和類型數據集將持續在社區開源,歡迎大家下載使用。