北京優(yōu)惠活動大廳科技有限公司品牌升級,中文名稱正式更名“北京晴數(shù)智慧科技有限公司”,英文名稱沿用,進一步將業(yè)務(wù)推向高質(zhì)量數(shù)據(jù)集的構(gòu)建和解決方案領(lǐng)域。
“Training data is technology” .數(shù)據(jù)即科技,OpenAI的聯(lián)合創(chuàng)始人Ilya Sutskever在與知名科技媒體The Verge訪談中提到。ChatGPT自發(fā)布以來熱度席卷全球,一周前驚艷亮相的GPT-4更是讓人感嘆我們迎來了AI發(fā)展的歷史性時刻。然而我們也困惑,OpenAI為何不開源GPT-4?在我們看來,更多的奧秘或許存在于數(shù)據(jù)之中......本文是創(chuàng)始人兼CEO張晴晴博士關(guān)于數(shù)據(jù)、大模型與生成式AI的觀點分享。
盡管就目前來看ChatGPT對大部分問答都能基本做到“對答如流”。但是,ChatGPT本質(zhì)上依舊是預(yù)訓(xùn)練模型驅(qū)動的產(chǎn)物,模型的成熟度、完善度對它回答的準(zhǔn)確度有著很大的影響。
在過去的一月里,人工智能領(lǐng)域中最火的話題莫過"ChatGPT"。MagicHub數(shù)據(jù)開源社區(qū)已開源部分基于ChatGPT的可擴展的對話數(shù)據(jù)集。
聯(lián)合中科院聲學(xué)研究所、上海交通大學(xué)和西北工業(yè)大學(xué),在Magichub開源社區(qū)正式開源180小時中文對話式語音數(shù)據(jù)集MagicData-RAMC。MagicData-RAMC是一批高質(zhì)量且標(biāo)注豐富的訓(xùn)練數(shù)據(jù),可以很好地支持開發(fā)者完成語音識別和說話人日志相關(guān)的研究。
晴數(shù)智慧深耕對話式AI領(lǐng)域多年,構(gòu)建了累計千萬輪LLM多領(lǐng)域超自然SFT多輪對話文本數(shù)據(jù)集,覆蓋近20個語種及方言,語料話題分布廣泛,涉及休閑娛樂、衣食住行、教育醫(yī)療等近20個領(lǐng)域。
文本到語音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來取得了飛速發(fā)展。為了實現(xiàn)高效合成既自然又高質(zhì)量的人類語音,有不少機構(gòu)及企業(yè)都進行了相關(guān)項目的研究,包括微軟亞洲研究院機器學(xué)習(xí)組和微軟 Azure 語音團隊去年推出的NaturalSpeech(https://speechresearch.github.io/naturalspeech2/)還有Meta今年發(fā)布的Voicebox(https://voicebox.metademolab.com/),都是利用大數(shù)據(jù)、大模型和零樣本(zero-shot)合成技術(shù),實現(xiàn)語音合成的音色、韻律、風(fēng)格的多樣性的代表。
追求卓越與無限的精神一直流淌在人類的基因里。圣經(jīng)中有故事:在古代,人們說著同一種語言,決定建造一座高聳入云,塔頂能觸及天堂的塔,被稱為巴別塔,以彰顯人類的力量和創(chuàng)造力。然而上帝看到人類的意圖,并認(rèn)為這個塔的建造是人們的傲慢和自大的表現(xiàn)。上帝讓人類的語言變得不同,使他們無法相互理解。這導(dǎo)致了混亂和分裂,無法繼續(xù)合作建造塔。語言不通讓人類的溝通變得低效和困難。近日,Meta推出AI模型SeamlessM4T,該模型可翻譯和轉(zhuǎn)錄近百種語言,似乎將破除因語言不同而導(dǎo)致的溝通障礙。可謂是人類構(gòu)建“巴別塔”的又一次嘗試。
數(shù)據(jù)確權(quán)授權(quán)的標(biāo)準(zhǔn)制定,首先是對數(shù)據(jù)進行分級分類。結(jié)合在高質(zhì)量數(shù)據(jù)上多年積累,晴數(shù)智慧首發(fā)了大模型數(shù)據(jù)集企業(yè)標(biāo)準(zhǔn)。晴數(shù)智慧將大模型數(shù)據(jù)集生產(chǎn)分為L1到L3三個標(biāo)準(zhǔn),級別越高,數(shù)據(jù)精度越高。晴數(shù)智慧希望優(yōu)惠活動大廳通過這套企業(yè)標(biāo)準(zhǔn)劃分不同的數(shù)據(jù)處理層級,規(guī)范并提升數(shù)據(jù)質(zhì)量,并確保數(shù)據(jù)的可靠性、有效性和知識產(chǎn)權(quán)的清晰性。
如果開源大模型使得企業(yè)不再制肘于自研大模型,那么基于大模型的生成式AI決勝關(guān)鍵將只有一個答案:數(shù)據(jù)。