
社區上新 | MagicHub.io開源社區又雙叒更新啦,超過190小時20G數據集免費下載!
發布時間 : 2021-06-22 閱讀量 : 4038
無論家居還是駕駛場景下,和人工智能對話的應用已經深入到我們日常生活,給我們生活帶來諸多便利和快樂。如今對話式人工智能爆發,谷歌最近推出LaMDA的AI對話搜索,可以就任何話題展開對話,國內各大互聯網企業也在積極布局對話式AI應用。IDC數據顯示,中國對話式AI市場規模預計在2023年達到約18.6億美元,2019-2023年的年均復合增長率(CAGR)為34.0%。
對話式AI離不開對話式AI訓練數據,MagicHub.io數據開源社區最近上傳一批對話式AI數據集,幫助開發者進行對話式AI模型的訓練。此外還開源一批朗讀式數據集和平行語料,總時長超過200小時,大小近20G。
對話式AI數據集
近期社區開源的對話式AI數據集包括普通話對話、鄭州話對話、英語和捷克語對話數據集,場景涉及網絡會議、自由對話等場景,對話還原真實場景。
普通話對話音頻數據集-網絡會議
本數據集包含了5.2小時的中文普通話對話音頻和轉寫文本。內容為使用筆記本電腦和手機進行網絡會議的10次對話。點此下載。
鄭州話對話音頻數據集
總時長為4小時的鄭州話對話音頻和轉寫文本,其中包含12對說話人之間的自由對話。點此下載。
此外,MagicHub.io社區還開源了41小時英語電話對話數據集和15小時捷克語對話音頻數據集(點此下載)及轉寫文本,可用于訓練口語對話自動語音識別聲學模型。
朗讀音頻數據集
社區開源的朗讀音頻數據集包括德語朗讀音頻、鄭州話朗讀音頻、中文普通話朗讀音頻。音頻內容包含日常用語和命令控制,音頻總時長超過180小時。
德語朗讀音頻數據集-命令控制
該數據集總時長包含0.71小時德語朗讀音頻和轉寫文本,內容為命令和控制。共有597條語料,由10名說話人提供。點此下載。
鄭州話朗讀音頻數據集-日常用語
該數據集包含了5小時的鄭州話朗讀音頻和轉寫文本,內容為日常用語。共有5,132條語料,由10名說話人提供。點此下載。
社區還開源了來自AISHELL的中文普通話朗讀音頻數據集(點此下載)和包含100句的中英文平行語料(中譯英)(點此下載)。普通話音頻數據集包含178個小時的普通話朗讀音頻和轉寫文本,數據由400名說話人提供;平行語料內容為金融相關的日常用語。
目前,MagicHub.io社區開源了超過40組音頻/文本數據集,累計超過1000小時音頻數據,數據語種包括英語、西班牙語、意大利語、韓語、日語等外語數據集;中文普通話、粵語、四川話、上海話、鄭州話等方言數據集;車載噪音數據集和發音詞典等。
獲取更多數據集,歡迎訪問:MagicHub.io數據開源社區。未來,將有更多數據將在這里開源,更多的數據供開發者免費下載使用!