
勇立潮頭!高品質SFT語音數據實現Zero-Shot語音復刻大模型
發布時間 : 2023-09-22 閱讀量 : 2519
文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音,有不少機構及企業都進行了相關項目的研究,包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)還有Meta今年發布的Voicebox(https://voicebox.metademolab.com/),都是利用大數據、大模型和零樣本(zero-shot)合成技術,實現語音合成的音色、韻律、風格的多樣性的代表。
語音TTS已經走向了AIGC大模型模式,利用大規模預訓練數據,加上高品質的SFT數據,實現zero-shot的聲音復刻正成為越來越火熱的技術趨勢。同時零樣本語音合成在娛樂產業、云平臺、通用AI平臺及AIGC領域都有廣泛的應用場景,包括電影電視配音及解說、有聲書、游戲角色配音、虛擬主播、語音導航等。
在此背景下,晴數智慧前瞻性地推出“高品質語音大模型SFT數據集”,此數據具備48KHz高采樣率,采集人數上萬,環境純凈,內容自然多樣,近萬小時,是語音SFT的絕佳數據。
數據集參數:
話題分布:涉及休閑娛樂等15個話題
說話人信息:為保證語音的多樣性,此數據集由來自中國各方言地區超3萬人參與錄制,男女近似比1:1,以中青年為主,地域分布廣泛。
說話人男女比
說話人年齡分布
說話人地域分布
此數據已被數家娛樂產業頭部企業運用于AIGC語音合成研發及應用,數據質量經過實踐檢驗。更多數據詳情,資訊我們的數據專家。