
OpenSLR 中國鏡像背后的數據存儲服務商,原來是這樣一家公司!
發布時間 : 2020-11-09 閱讀量 : 2740
OpenSLR 中國鏡像背后的數據存儲服務商,原來是這樣一家公司!
作者 | 夕顏 采訪嘉賓 | 張晴晴 出品 | CSDN(ID:CSDNnews)
從事語音領域的開發者、學習者一定對OpenSLR不陌生,這個美國著名的語音資源開放平臺托管著來自世界各地的開源語音數據資源。在語音識別開源工具Kaldi創始人Daniel Povey的參與促成下,OpenSLR中國鏡像讓中國的開發者能夠享受到更多福利。優惠活動大廳通過這個鏡像,中國開發者就可以更加便捷地下載OpenSLR 的開源數據。
而為這個鏡像提供數據存儲服務的廠商是一家名為的中國企業,Daniel本人還擔任這家公司的語音顧問。
這不禁讓人好奇,這是一家怎樣的企業?捋清楚這家公司的發展脈絡后,會發現這家興起于國內AI與數據浪潮興起之時的數據廠商,其四年的發展歷程,儼然是中國數據服務從粗放模式到精細化運營轉變的縮影。
大數據浪尖弄潮,見證國內 AI 數據服務行業變遷
的創立者是法國“海歸”博士后語音專家張晴晴。
初識語音,起于張晴晴在大三時期接觸到《語音信號數字處理》(作者:楊行峻,遲惠生)這本書。當時,這門課由大唐電信的專家擔任教授,大四選擇報送學校時,張晴晴意識到自己對中科院聲學所的語音課程很感興趣,當時還請教授為她寫了一份參考名單。從此,她便與語音結下不解之緣。
2010年,張晴晴獲得了在法國國家實驗室LIMSI-CNRS讀語音信號處理博士后的機會,研究課題是大詞匯連續語音識別的聲學建模。在這里,她有機會參與歐盟的一個項目,涉及歐洲多語種語音的識別。這一年,她最大的收獲,是可以在國際范圍內評判最好的數據處理方法和算法,這支團隊注重公允和嚴謹的作風,也對她日后的專業研究產生了重要的影響。
2011年,張晴晴從LIMSI-CNRS學成歸國,來到中國科學院聲學研究所,從事大詞匯連續語音識別的聲學建模以及語言建模研究工作。
在中科院的日子讓張晴晴加深了人工智能對數據依賴性的深入認識和理解,創立一家專業的數據服務公司,為客戶提供更專業數據的想法開始萌芽。之后數年,在數據行業的經歷加深了她對數據重要性的認識,做業內最好的數據服務公司的想法越來越強烈。
張晴晴回憶,在研究生和博士期間,為了做聲學模型和語言模型的搭建及算法,張晴晴購買過一些數據用于模型訓練,然而在這個過程中,她發現傳統的數據提供商做出來的數據用起來并不順手,有些數據的處理方式也并不是她想要的。在那個時候,其實大家都知道數據對于人工智能的重要性,數據質量跟不上的情況下模型的訓練就是“Garbage in,garbage out”,但是沒有多少人愿意靜下心來做數據。可沒有好的數據,就無法提高產品的性能。
“我意識到,好的數據處理方式,能夠給最后的識別性能帶來可觀的性能提升。為了了解各行業數據的基本情況,我離開聲學所,去到企業中去,期間了解到各企業的數據的采集及處理方法,但是從科研角度來說,這些方法還是有一定的缺陷,”她說。
在人工智能發展處于低谷時期時,張晴晴做過很多研究算法工作,當時GPU、大數據還沒有被廣泛使用,大部分人還未意識到數據的重要性。而從2016 年左右起,國內 AI 和大數據熱潮涌起,相關硬件和軟件開始被大規模使用,擁有數據的企業和能夠高效處理數據的企業的核心的價值和與能力才逐漸凸顯出來,各種數據服務公司如雨后春筍破土而出,魚龍混雜。
親歷人工智能變遷的過程,深刻理解數據和算法的價值和不足,張晴晴深諳這個領域是一片大有可為的“藍海”。張晴晴做出一個重大決定,離開聲學所,自立門戶,創辦了一家數據服務公司——,為語音識別、語音合成、自然語言處理、計算機視覺領域提供數據采集和標注服務。
沒過多久,乘著AI和數據行業吹起來的“東風”,也在變化中迎來了全新的發展契機。
首先,2020 年,與公司創立之初相比,張晴晴感覺到了 AI 數據服務行業已然發生了非常明顯的變化。
2010 年左右,人工智能改變了算法,從過去的淺層學習轉向了深度學習。與此同時,智能硬件的流行使得對數據的需求突飛猛進式的增長,如果依靠傳統數據公司純人工的數據處理方法,數據質量和效率都無法滿足精準化數據的需求。另外,做模型研究與應用的人也逐漸認識到,數據質量與識別性能相比的重要性只多不少,數據處理方式的優化更是比算法優化更重要。
張晴晴分析道,從行業發展來說,越來越多的企業開始利用收集來的數據構建部署 AI 模型,以支持新服務,也有越來越多的企業將倚重 AI 來提高員工生產力。人工智能行業仍以有監督學習的模型訓練方式為主,對于標注數據有著強依賴性需求。
其次,從本質上來說,數據就像是“草料”,只有數據有營養,才能讓機器學習這匹馬“跑”起來。然而,在實際行業應用場景中,數據服務還是面臨著一些痛點。
比如張晴晴最為熟悉的語音識別領域,有限詞匯是語音識別中的一個難點,雖然當前語音識別技術已經能夠識別出大部分的英語單詞,但是在識別人名和俚語上仍然有困難,如何降低有限詞匯(out of vocabulary)對識別率的影響,研發了具有自主知識產權的發音詞典標注系統。在這套系統中,機器可以基于現有的詞典,對新詞的發音進行預測,并將結果反饋給標注員,以便標注員可以更快地進行標注,并將此發音加入到詞典中。優惠活動大廳通過這樣的方式,可以快速地對詞典進行更新迭代,從而加快 OOV 問題的解決。
此外,語音識別模型需要大量的數據來學習新單詞,為各種語言提供了大規模的發音詞典和相應的語音數據集,并設計了多種語料庫。
再比如,AI 系統具有偏見而造成的一系列問題越來越嚴重,以最典型的人臉識別大廠微軟、IBM、Facebook為例,三者的人臉識別系統均被證明識別白人的準確率高于膚色較深的人種,因此引起很多爭議。針對AI系統偏見,企業和開發者們也都給出了一些解決方案,但是歸根結底,從最底層的數據層面保證數據的“中立”,是杜絕 AI 偏見最簡單、有效的途徑。而怎樣保持數據無偏見,也是行業內一個艱難的挑戰。
“模型的偏見來自于有偏見的數據。我們會針對應用場景給出全方位的數據解決方案。我們會根據客戶的應用場景,結合客戶目前的數據情況狀態,針對性的給他們設計應用場景的語料,提高數據的覆蓋范圍,以及該場景下的發音特點。與我們的常識相悖的是,對模型來說,純粹干凈(比如沒有背景噪聲)的數據不一定是好的。因為真實場景下的語音識別十分復雜,比如環境可能是有噪音的,說話人口音多樣等。因此,數據的采集環境一定要盡可能的接近真實環境。”張晴晴說。
從張晴晴的描述來看,AI數據服務行業正在經歷著一場變革,AI商業化進程的演進已經使得傳統的數據服務方式滯后,無法滿足日益多樣化的數據服務需求。
AI 數據服務行業變化叢生,愛數一站式服務解決產業痛點
在這樣的環境下,行業實踐證明,更具有前瞻性的數據集產品和高定制化服務成為了AI基礎數據服務行業的主要服務形式。張晴晴認為,從行業內部來看,伴隨著上一輪 AI 創業熱潮的平息,行業經過了一輪洗牌,在業務能力、品牌效益、服務意識、資質等方面均有優勢經驗的品牌商地位逐漸凸顯。
為適應這樣的需求變化,的數據服務產品不斷更新迭代,形成了現在的一站式數據服務。
目前,提供一站式的數據服務,包括數據采集、清洗、處理、轉寫標注、文本理解、圖像標注,以及多模態服務。AI應用對于場景變化非常敏感,因此,為適應不同場景下的數據要求,提供定制化數據,也就是一站式數據服務,在與客戶溝通了解要求之后,制定數據方案,與客戶達成共識之后,再進行數據的采集、轉寫標注、清洗等服務,為客戶提供結構化的數據。
目前,擁有海量的成品數據集,支持超過50個語種,涵蓋多個場景數據集,包括客服場景、社交媒體、在線教育、智能車載、智能醫療、新零售等。
在幫助企業訓練AI客服或商用機器人等人工智能模型上,官網近期新增大量適用于語音識別和語音合成領域的方言及外語數據集,包括上海、四川、廣東、鄭州、武漢、湖南、山西等地方言,以及泰語、西班牙語、印尼語等外語,覆蓋不同年齡性別的人群和場景的數據集。
這樣的數據集意義重大,因為目前來說,方言與外語語音識別與合成仍然是業內一個十分棘手的問題,很多性能表現優越的產品都會因為方言和外語識別困難,讓用戶的使用體驗大打折扣。有了類似的數據集,才能訓練出能夠更好識別方言、外語的AI,在現實場景應用中才能更好地落地。
此外,現在人們在很多場景下會有中英混合的說話習慣,此類語音的識別也是語音識別領域的一大難題。繼續新增“中英混合手機朗讀音頻數據集”,方便AI企業進行多種語言混合識別產品的開發。
從技術層面上來講,數據產品的生產過程也與傳統方法有所不同,比如在數據采集環節采用人機協同的方法,以行業標桿級獨立知識產權設計下的錄音環境,實現高標準的數據采集,提高了數據的質量和可靠性,為后續處理、清洗降低了難度和成本。優惠活動大廳通過機器篩除前期采集中的低質數據,這樣可以大大減輕后期數據清洗的工作量,使數據采集精度達到99%以上,因而更好地確保數據產品的質量。
值得注意的是,數據集開源也能體現一家數據公司的實力,也能體現其開放的態度。如今,已開源多個語音數據集,包括近期發布的英語發音評測數據集(14+小時中國人說英語的數據,主要是在近場環境,不存在明顯混響、噪音情況下錄制的朗讀風格的數據),30小時的日語語料庫,中文童聲語音合成數據集,以及openslr上開源的包含755小時的中文朗讀語音數據集等。
開源開放的態度與過硬的數據實力,造就了的吸“粉”體質。
AI 與大數據時代,數據服務行業將去往何方?
AI 時代,大數據與 AI 相互促進,數據服務行業將作為 AI 制造流水線上的“操作工”,掌控著 AI 發展的進度和質量。
作為國內領先的數據服務提供商,既是國內數據服務行業的參與者,也是變革者,包括其在OpenSLR等開源平臺上所做的數據集貢獻。近期入選《硅谷評論》“2020年度30家成長最快的科技公司”榜單,表明業內對其致力于數據推動應用創新,推動人工智能技術應用與發展的肯定。
當下,行業對數據的要求更加精準化,數據服務行業未來將會出現哪些趨勢?數據服務企業該如何應對這些變化呢?在數據行業從業十多年的張晴晴給出了自己的看法。
她認為,AI 數據服務行業與行業用戶將更緊密地貼合,場景更豐富,當然,競爭也會日漸激烈。為適應變化,數據服務企業應當:
具備更前瞻性的數據集產品設計能力,推出相關的技術工具; 提高對數據預處理能力,減少人力成本。
“更重要的是,利用一體化數據平臺對各個環節人員行為和數據質量進行把控(多重追責性的全查、抽查機制),以確保最終產出的結構化,數據合規、保質。”張晴晴說道。