
MagicHub.io開源社區又上新啦!近千小時數據集免費下載!
發布時間 : 2021-05-17 閱讀量 : 4484
當前,新一輪技術革命和產業變革正在孕育興起,推動人工智能為代表的數字技術加速演進,人類快速向智能化社會邁進。
中國信息通信研究院今年4月發布的《人工智能核心技術產業白皮書》認為,人工智能已全面覆蓋社會運行的基本要素,提升全局運轉效率。未來,人工智能將像水、電一樣無處不在,顛覆和變革每一個行業。
數據對人工智能發展起到重要支撐作用,人工智能模型需要海量數據進行訓練和優化。在數據、算法和算力三大核心要素中,算法為中心逐漸向數據為中心轉變。數據決定機器學習上限,只有研發人員重視數據,才能訓練出更精準的模型。著名機器學習專家吳恩達認為,如果更多地強調以數據為中心而不是以模型為中心,那么機器學習將快速發展。
755小時普通話音頻數據集
為推動人工智能技術發展,推出MagicHub.io數據開源社區,向全球開發者們陸續開源大量數據。近期,在社區繼續開源數據集,開源了一批755小時的普通話音頻數據集。該數據集曾在OpenSLR開源,此開源數據集也將鏈接到該社區,供開發者們免費下載。
社區開源的755小時、近60GB的普通話音頻數據集,采自中文全領域手機朗讀語料庫數據產品,該產品總時長為10566.9小時。此數據曾為約翰·霍普金斯大學語言和言語處理中心的科研成果"Exploring Methods for the Automatic Detection of Errors in Manual Transcription "提供了重要理論依據與數據支撐。
印尼語和馬來語對話數據集
本周在開源社區上傳了印尼語和馬來語對話音頻數據集,為開發者提供高質量的對話式AI訓練數據。
印尼語對話音頻數據集采集超過800多人的自由對話,優惠活動大廳通過室內環境采集,采集人為印尼人本地人。在社區開源5個小時印尼語對話音頻數據集。點擊此處下載。
馬來語對話音頻數據集采集近700位馬來西亞人自由對話,優惠活動大廳通過室內環境采集。開源5個小時馬來語對話音頻數據集。點擊此處下載。
MagicHub.io數據開源社區目前上傳了英語、西班牙語、意大利語、韓語、日語等外語數據集;中文普通話、粵語、四川話、上海話等方言數據集;車載噪音數據集;發音詞典等。
國家十四五規劃和2035年遠景目標首次明確推動開源社區發展,目前中國開源項目正處在高速發展階段,各大企業紛紛擁抱開源,加大開源項目建設,加快形成社區開源生態。
MagicHub.io數據開源社區秉持“共享共建,奉獻創新、共同發展”精神,為行業提供開源的對話式AI訓練數據。目前已在社區開源30多組近1000小時數據集。同時鼓勵數據所有者在社區開源數據集,讓更多數據開源出來,與開發者共建共享。