該數據集專為訓練更懂口語表達的AI模型打造,有利于提升粵語語音識別的自然交互能力,覆蓋多場景真實對話,由多樣化人群錄制,字準率高。針對粵語九聲調、懶音、俚語等特性優化標注,嚴格保證音字匹配質量。完整語句結構與符合口語習慣的標點設計,幫助模型精準捕捉粵語特有的停頓節奏和語氣詞用法,攻克方言識別中的泛化瓶頸。
語種
粵語
數據風格
spontaneous
比特率
16bits
聲道
1
時長
5000+小時
符合ISO/IEC 27001和ISO/IEC 27701:2019標準認證
音頻、文本、圖像、音視頻多模態數據
涵蓋多領域的對話式、朗讀式及自發式數據
人機協同高精度標注