北京優惠活動大廳科技有限公司品牌升級,中文名稱正式更名“北京晴數智慧科技有限公司”,英文名稱沿用,進一步將業務推向高質量數據集的構建和解決方案領域。
“Training data is technology” .數據即科技,OpenAI的聯合創始人Ilya Sutskever在與知名科技媒體The Verge訪談中提到。ChatGPT自發布以來熱度席卷全球,一周前驚艷亮相的GPT-4更是讓人感嘆我們迎來了AI發展的歷史性時刻。然而我們也困惑,OpenAI為何不開源GPT-4?在我們看來,更多的奧秘或許存在于數據之中......本文是創始人兼CEO張晴晴博士關于數據、大模型與生成式AI的觀點分享。
盡管就目前來看ChatGPT對大部分問答都能基本做到“對答如流”。但是,ChatGPT本質上依舊是預訓練模型驅動的產物,模型的成熟度、完善度對它回答的準確度有著很大的影響。
在過去的一月里,人工智能領域中最火的話題莫過"ChatGPT"。MagicHub數據開源社區已開源部分基于ChatGPT的可擴展的對話數據集。
聯合中科院聲學研究所、上海交通大學和西北工業大學,在Magichub開源社區正式開源180小時中文對話式語音數據集MagicData-RAMC。MagicData-RAMC是一批高質量且標注豐富的訓練數據,可以很好地支持開發者完成語音識別和說話人日志相關的研究。
晴數智慧深耕對話式AI領域多年,構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集,覆蓋近20個語種及方言,語料話題分布廣泛,涉及休閑娛樂、衣食住行、教育醫療等近20個領域。
文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發展。為了實現高效合成既自然又高質量的人類語音,有不少機構及企業都進行了相關項目的研究,包括微軟亞洲研究院機器學習組和微軟 Azure 語音團隊去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)還有Meta今年發布的Voicebox(https://voicebox.metademolab.com/),都是利用大數據、大模型和零樣本(zero-shot)合成技術,實現語音合成的音色、韻律、風格的多樣性的代表。
追求卓越與無限的精神一直流淌在人類的基因里。圣經中有故事:在古代,人們說著同一種語言,決定建造一座高聳入云,塔頂能觸及天堂的塔,被稱為巴別塔,以彰顯人類的力量和創造力。然而上帝看到人類的意圖,并認為這個塔的建造是人們的傲慢和自大的表現。上帝讓人類的語言變得不同,使他們無法相互理解。這導致了混亂和分裂,無法繼續合作建造塔。語言不通讓人類的溝通變得低效和困難。近日,Meta推出AI模型SeamlessM4T,該模型可翻譯和轉錄近百種語言,似乎將破除因語言不同而導致的溝通障礙。可謂是人類構建“巴別塔”的又一次嘗試。
數據確權授權的標準制定,首先是對數據進行分級分類。結合在高質量數據上多年積累,晴數智慧首發了大模型數據集企業標準。晴數智慧將大模型數據集生產分為L1到L3三個標準,級別越高,數據精度越高。晴數智慧希望優惠活動大廳通過這套企業標準劃分不同的數據處理層級,規范并提升數據質量,并確保數據的可靠性、有效性和知識產權的清晰性。
如果開源大模型使得企業不再制肘于自研大模型,那么基于大模型的生成式AI決勝關鍵將只有一個答案:數據。