
MagicHub.io開源社區上新啦!快來下載車載開源數據!
發布時間 : 2021-05-17 閱讀量 : 4630
近期,近千家車企參加上海車展,電動化和智能化是各家車企“秀肌肉”的標配,特別汽車的智能化如智能座艙、自動駕駛、智能車云服務、智能電動等功能,描繪著智能車的未來圖景。
據統計,預計2025年全球智能聯網汽車數量將接近7400萬臺,其中中國的智能聯網汽車數量將達到2800萬輛,我國智能汽車行業迎來發展黃金期。
要想這些AI功能真正落地,在車內環境下實現人機智能交互,需要在語音識別、語音合成、自然語言理解等算法應用領域,提供底層的算法和算力支撐。而支撐這些算法的,是大量場景匹配度高,精準性好的智能車載對話式訓練數據。如果說汽車電動化的燃料是電力,那么汽車智能化的燃料便是數據。
為了幫助智能車載系統的落地和優化,近期在MagicHub.io數據開源社區,更新開源了可用于車載系統的數據集:車載噪音數據集和車載普通話朗讀數據集。
車載噪音數據集
數據合規采集于行車過程中產生的各種噪音,例如輪胎摩擦噪聲、發動機噪聲、收音機噪聲、人聲等。
車載普通話朗讀數據集
本次開源的車載普通話朗讀數據集,內容主要是車內場景中的命令和查詢,數據集包含在汽車場景下的10個說話人貢獻的5948句話。值得一提的是,在采集該數據時,車內設置了兩個麥克風,一個在汽車遮光板上,一個在座位前排乘客座椅上,靠近采集人的地方。所以,數據記錄了同步的雙重聲音。
接下來,MagicHub.io數據開源社區將持續上傳更多多維度、多場景的標準化數據集,供更AI多開發者下載和使用。