
行業(yè)洞察 | 當(dāng)數(shù)據(jù)燃盡,AI大模型出路幾何?
發(fā)布時間 : 2022-12-08 閱讀量 : 1274
近期, 自然語言處理NLP與圖像方面的SOTA的模型基本都是基于大數(shù)據(jù)和大模型預(yù)訓(xùn)練pretrain的。當(dāng)我們翱翔在搭積木壘大模型的時候,你可曾想過,也許我們壘的大模型,數(shù)據(jù)壓根就無法完全訓(xùn)練好,換句話說也許你壘的大模型參數(shù)過大,高質(zhì)量的數(shù)據(jù)不足,導(dǎo)致模型訓(xùn)練欠擬合。
最近,看到一篇分析高質(zhì)量數(shù)據(jù)數(shù)量有限的文章,這篇文章預(yù)測了 2022 年至 2100 年間可用的圖像和語言數(shù)據(jù)總量,并據(jù)此估計了未來大模型優(yōu)惠活動大廳規(guī)模的增長趨勢。
來源 https://arxiv.org/pdf/2211.04325.pdf
研究結(jié)果表明高質(zhì)量的語言數(shù)據(jù)存量將在 2026 年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。這就意味著如果數(shù)據(jù)生產(chǎn)的效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到 2040 年,模型的規(guī)模增長將放緩,這將會是人工智能領(lǐng)域最大的瓶頸。
人工智能三要素
眾所周知,算法、算力和數(shù)據(jù)是人工智能的三駕馬車,是行業(yè)發(fā)展的基石。
人工智能的高速發(fā)展離不開AI算法持續(xù)突破創(chuàng)新,隨著模型復(fù)雜度指數(shù)級提升,算法的不斷突破創(chuàng)新也持續(xù)提升了算法模型的準(zhǔn)確率和效率,各類算法方案快速發(fā)展并落地于各領(lǐng)域,不斷衍生出新的變種,模型的持續(xù)豐富也使得場景的適應(yīng)能力逐步提升。
算力是人工智能發(fā)展的技術(shù)保障,是人工智能發(fā)展的動力和引擎。目前全球 AI 算力主要是以 GPU芯片為主,隨著技術(shù)的不斷迭代,支撐 AI 技術(shù)發(fā)展的底層技術(shù)不斷迭代,AI算法得到的算力支持越來越好。
AI算法的訓(xùn)練離不開數(shù)據(jù)的加持,其實網(wǎng)上所有的信息都可以稱為數(shù)據(jù),通俗理解,大數(shù)據(jù)就是用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)具有有三大特征:體量大、多維度、全面性。模型訓(xùn)練數(shù)據(jù)的豐富程度、清洗的干凈程度一定程度上決定了 AI 算法的優(yōu)劣。數(shù)據(jù)是一切智慧物體的學(xué)習(xí)資源,沒有了數(shù)據(jù),任何智慧體都很難學(xué)習(xí)到知識。
數(shù)據(jù)危機(jī)
如果出現(xiàn)數(shù)據(jù)危機(jī),人工智能將止步不前。尤其是我們大量使用的Google翻譯、Sari智能語音助手、數(shù)字虛擬人語音合成等技術(shù)都是依賴大量的高質(zhì)量的標(biāo)注數(shù)據(jù)來完成模型訓(xùn)練。但是,這些人工智能產(chǎn)品還不夠完美,還需要算法精進(jìn)與額外的大量的數(shù)據(jù)加持,但是上面的報道研究表明人類社會雖然無時無刻在產(chǎn)生數(shù)據(jù),但是高質(zhì)量數(shù)據(jù)即將枯竭。針對這個迫在眉睫的挑戰(zhàn),需要算法工程師和數(shù)據(jù)供應(yīng)商共同努力解決。
解決方案
算法工程師需要致力于研究小模型和遷移學(xué)習(xí)算法。目前大量的語言模型都是基于巨量參數(shù)的大模型,如何精準(zhǔn)使用數(shù)據(jù)研究出又小又smart的小模型是未來發(fā)展的一個方向。此外,我們可以使用遷移學(xué)習(xí)的方法將預(yù)訓(xùn)練的大模型的性能,優(yōu)惠活動大廳通過微調(diào)或者域自適應(yīng)的算法遷移到目標(biāo)小數(shù)據(jù)集上,擴(kuò)展大模型的應(yīng)用領(lǐng)域,同時減少每個應(yīng)用場景的大數(shù)據(jù)需求。
算法工程師能做到的是緩解數(shù)據(jù)枯竭帶來的危機(jī),解決危機(jī)的根本方法還是生產(chǎn)大量、高質(zhì)量的標(biāo)注數(shù)據(jù),充盈大數(shù)據(jù)倉庫。數(shù)據(jù)標(biāo)注是AI的上游基礎(chǔ)產(chǎn)業(yè),應(yīng)該以人工標(biāo)注為主,并且借助算法與機(jī)器共同標(biāo)注,減少人力資本投入,提升數(shù)據(jù)生產(chǎn)效率。
作為全球領(lǐng)先的AI數(shù)據(jù)提供商,致力于優(yōu)惠活動大廳通過高標(biāo)準(zhǔn)且安全合規(guī)的采集、清洗、整理、標(biāo)注流程,為企業(yè)和科研機(jī)構(gòu)提供高質(zhì)量AI數(shù)據(jù)。
查看更多 自有數(shù)據(jù)集 /dataset
同時,打造智能化標(biāo)注平臺Annotator,該平臺能夠標(biāo)注各種場景的數(shù)據(jù),例如車載、家居、室外等各種場景,標(biāo)注效率和質(zhì)量獲得海內(nèi)外眾多客戶肯定。
智能化標(biāo)注平臺Annotator - 3D點云標(biāo)注
智能化標(biāo)注平臺Annotator - 音頻標(biāo)注
智能化標(biāo)注平臺Annotator - 圖像標(biāo)注
了解更多 Annotator 智能化標(biāo)注平臺 /annotator