
企業布局AI客服 如何選擇高質量訓練數據?
發布時間 : 2020-11-09 閱讀量 : 2043
相信很多人都接打過AI客服電話,大家心里多少有點不適應,一方面思維慣性,希望對方是真人才體現對我們的重視;另一方面AI客服很難解決我們的問題,最后多數都要轉人工服務。事實上,AI客服正在幫助越來越多企業完成相應工作。
AI客服將成企業未來布局方向
AI客服當前水平一如1997年前后的互聯網,尚處在萌芽期,無論用戶對它的接受程度還是服務能力都處在較低水平。但能想象到的是,AI客服包括更廣泛的人機對話技術不斷發展,一定程度上減輕了傳統客服中心一線員工工作負擔,減少用戶等待應答,從而實現企業降本增效。
根據2018年5月發布的《中國智能客服行業研究報告》顯示,機器人客服正在以40%~50%的比例替代人工客服的工作。另根據權威顧問公司Gartner研究,截止到2020年,280萬美國客服中,超過85%客戶互動將會在沒有人工坐席的情況下處理。
當下AI客服的痛點與難點
在這個節點,無論對于企業還是AI客服的研發者來說,他們不得不面臨諸多亟待解決的問題。AI客服要想無限接近人工水平,那就要思考AI客服將面對哪些實際環境和技術瓶頸。實際工作環境將給語音識別技術帶來巨大挑戰,比如復雜的噪音、聲源的遠近、口音、方言等。
此外,對于AI客服來說,較短的口語識別是一個難點,特別缺少上下文信息時,語音識別很難確定發的音和對應的字之間關系,比如:“yan jiu”,在不同語境下可能是“研究”,也可能是“煙酒”。人與人對話行為模型非常復雜,在對話信息中有時沒有邏輯,會省略很多詞,發音含糊甚至夾雜俚語、外語等,這為AI客服進行語音理解造成很大困難。如果這些問題不能得到有效解決,企業搭建AI客服將面臨轉化率低、呼入服務應答轉人工率高、成本與效果性價比低、對話靈活度不夠等系列難題。
提升AI客服語音識別率,深度神經網絡等算法外很大程度上要依賴大量數據集訓練。但并不是所有數據都能用于AI訓練,目前訓練AI主要是監督式學習,它需要從標注后的數據中提取信息,如果信息標簽質量不合格,數據匹配度不高,難以訓練出高性能的AI模型。所以,數據將決定機器學習的上限。
官網上線多場景語音數據
在幫助企業訓練AI客服或商用機器人等人工智能模型上,官網近期新增大量適用于語音識別和語音合成領域的方言及外語數據集,包括上海、四川、廣東、鄭州、武漢、湖南、山西等地方言,以及泰語、西班牙語、印尼語等外語,覆蓋不同年齡性別的人群和場景的數據集。
方言數據集
對于訓練AI模型的研發人員來說,AI將面對不同地域用戶,要具備識別方言或者重口音的能力,那么就需要用匹配性的方言數據來訓練模型,比如推出的用于客服、消費機器人等領域方言數據集。
語音合成數據集
理想的情況下,AI客服與用戶對話時能夠理解上下文并給出恰當回答,甚至語氣帶有感情色彩。對于AI研發人員來說,AI客服如果缺乏真實度較高的對話數據訓練,在對話場景下將力不從心。這時候我們推薦您TTS數據集訓練AI客服。
各國語言語音識別數據集
互聯網技術的發展,企業跨國業務增多,人工智能語音翻譯交互系統可用于解決不同國家語言不通問題,讓跨語言高效溝通成為可能。對AI科研人員來說,提高人工智能理解語言的準確度,要求AI模型使用針對語種下大量語音優惠活動大廳。
人工智能正在服務諸多生活工作場景,隨著5G和物聯網等技術的發展,無人駕駛、AI客服、智能家居等大量出現在我們日常生活中,這些場景的實現有賴于它們背后大量高質量的語音等數據支撐。