
巴別塔再現?高質量端到端數據優惠活動大廳助力Meta推出AI模型SeamlessM4T
發布時間 : 2023-08-24 閱讀量 : 2297
追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事:在古代,人們說著同一種語言,決定建造一座高聳入云,塔頂能觸及天堂的塔,被稱為巴別塔,以彰顯人類的力量和創造力。然而上帝看到人類的意圖,并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同,使他們無法相互理解。這導致了混亂和分裂,無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日,Meta推出AI模型SeamlessM4T,該模型可翻譯和轉錄近百種語言,似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。
Meta 表示,SeamlessM4T可以在近 100 種語言之間進行文本到語音的翻譯,并支持 36 種語言的完全語音到語音翻譯,而此前要想實現類似的操作只能在單獨的 AI 模型中分別進行翻譯。這項技術相比于傳統的文本翻譯,最大的價值和挑戰,在于可以直接對人類的語音進行端到端的翻譯,從一種語言的語音直接翻譯到另一種語言。這就可以使得人和人直接通話,不再需要復雜的中間模塊來轉換。
支持SeamlessM4T的模型進行語音到語音翻譯需要大量高質量端到端數據。而數據資源稀缺也是端到端語音翻譯方法最大的挑戰之一。更具體地來說,是因為語音翻譯數據集構建流程復雜、成本高:在獲取授權音頻的前提下進行對應的轉寫和翻譯。接著需要對音頻、轉寫和翻譯進行切分,最后還要對齊以及過濾以獲得有效的數據。
晴數智慧布局對話式AI數據集多年,關注到大模型帶來了大規模的對話式場景落地,在3年前開始規劃語音翻譯數據集產品設計。高質量的語音翻譯數據集成為基礎能力制約的關鍵。晴數智慧并設計生產了各個語言(方言)的端到端翻譯數據集:MagicData-CLAM-E2E數據集。今天,當所有的AIoT設備和人類對話的時候,我們可以基于這樣的高質量語音翻譯數據集,完成多語言間的自然轉換。通天巴別塔的道路即在腳下。
晴數智慧MagicData-CLAM-E2E數據集樣例展示:
上海話-中文普通話
WAV(音頻數據聯系business@magicdatatech.com獲取)
廣式粵語-中文普通話
WAV(音頻數據聯系business@magicdatatech.com獲取)
英語-中文
WAV(音頻數據聯系business@magicdatatech.com獲取)
西班牙語-中文
WAV(音頻數據聯系business@magicdatatech.com獲取)
晴數智慧希望能優惠活動大廳通過高質量MagicData-CLAM系列數據集幫助更多企業科研機構用高效、低成本地構筑高性能端到端語音翻譯模型,打造AI時代的巴別塔。
聯系我們的數據專家,了解更多數據詳情。