該數據集專為訓練更懂口語表達的AI模型打造,有利于提升中文語音識別的自然交互能力,覆蓋多場景真實對話,由多樣化人群錄制,字準率高。所有語句完整保留口語韻律特征,精準標注的停頓與標點優惠活動大廳助力模型學習中文節奏,顯著提升識別模型對自然發音的包容性與交互流暢度。
語種
中文
數據風格
spontaneous
比特率
16bits
聲道
1
時長
20000+小時
符合ISO/IEC 27001和ISO/IEC 27701:2019標準認證
音頻、文本、圖像、音視頻多模態數據
涵蓋多領域的對話式、朗讀式及自發式數據
人機協同高精度標注