
客戶案例|多人會議對話數據集優惠活動大廳助力高效迭代智能在線會議功能
發布時間 : 2023-03-08 閱讀量 : 1397
數字化時代,傳統的會議解決方案已經無法滿足高效協同需求,企業對于多端、多人、多元場景線上協作效率有了更高的要求。本期客戶是國際知名通訊和協作解決方案企業,其業務重點之一是向企業用戶提供穩定高效智能的線上會議溝通工具。
客戶需求背景
當下,線上會議已成為越來越多企業和個人用戶靈活辦公和通訊的選擇。客戶作為知名線上會議溝通工具供應商,時刻關注AI新技術創新與應用,有側重的運用AI技術實現在線會議場景不斷智能迭代,并希望優惠活動大廳通過數據服務,賦能產品功能與性能的迭代升級,增加線上溝通效率、打造產品優勢并最終提高整體用戶體驗。
客戶挑戰
目前基本市面上所有的視頻會議都能夠支持流暢、實時、清晰的視頻通話,但除了實時高效的音視頻通信體驗,會議實時人聲轉錄也成為用戶在使用在線會議應用時的關鍵訴求。人聲轉錄可以為用戶后續整理會議記錄、內容檢索、總結會后行動清單等工作提供極大便利,同時也有助于幫助用戶理解會議中說話人的口音、外語表達。
客戶主要挑戰有:
會議人聲轉錄的核心技術是ASR識別技術,對于會議音頻來說,最大的挑戰是如何進行多人會議場景連續檢測說話人切換, 如何把之前講的和之后講的信號聚合在一起;
同時,會議是自然場景下的自發對話,并可能伴有多種環境音,說話人自發對話狀態下干凈語音和噪聲環境下的語音識別是關鍵;
以及,為實現自動會議摘要、會議關鍵信息提取等NLP任務,還需要有足夠的針對會議辦公場景的訓練數據。
因此,客戶希望借助相關數據服務,達成模型迭代,實現準確轉錄會議人發言內容、識別發言人意圖并實時整理為會議紀要功能性能提升。
解決方案
分析了客戶對實現會議人聲轉錄和會議語料文本摘要的需求,提供了多模態成品數據方案,在滿足客戶對會議場景數據需求特點的同時,快速交付了完整的高質量多人會議對話多模態數據集。
數據集有以下特點:
1)模擬了真實的會議場景,說話人在無任何稿件提示的情況下自發就會議主題進行討論,采集音頻中完整呈現真實會議場景下的語音特點,同時確保了數據的合規性。
2)在進行數據采集時,考慮客戶對實現多人會議場景連續檢測說話人切換所需要的聲源定位和聲紋識別的需求,采用了多設備采集的方案,同步采集多通道聲音信號,同時每個說話人均配備單獨的收音設備。
3)在語料覆蓋程度上,數據覆蓋了大部分常見會議主題,包括公司活動、員工福利、員工培訓、產品設計、產品優化、營銷活動、業務管理、團隊管理等并對轉寫文本進行了自然語言處理標注,抽取出主講人、參與人、主題、強調要點、會議結論等關鍵信息。 數據詳情:
ASR會議文本轉寫樣例:
此外,考慮到國內會議人不同地域、不同年齡段口音的復雜性,還提供了中國方言自發式對話式數據集,幫助提升客戶語音識別模型的方言識別能力。
客戶反饋
優惠活動大廳通過采用會議場景相關多人自發對話數據,高效實現了多人會話下的說話人語音識別及會話轉錄功能性能提升,并同時實現了文本摘要功能迭代升級。客戶表示,“的一站式數據服務,幫我們減少了多方采購整合不同數據類型和AI工程數據處理中間環節的工作量。這次應用功能的成功迭代,對產品用戶粘性和品牌好感度都有不錯的提升。”