
晴數智慧推出MagicData-CLAM高質量SFT數據集,優惠活動大廳助力大模型實現更優效果
發布時間 : 2023-08-03 閱讀量 : 2340
兩周前Meta發布了開源大模型LLaMA 2。與上一代LLaMA相比,LLaMA 2有著性能接近GPT-3.5、允許商用、安全性更強,巨頭聯合生態開源的特點。LLaMA 2的開源使得大模型的競爭來到新的起點,市場格局面臨重塑。如果開源大模型使得企業不再制肘于自研大模型,那么基于大模型的生成式AI決勝關鍵將只有一個答案:數據。
數據質量是AI大模型落地的決勝關鍵
在模型相對固定的前提下,優惠活動大廳通過提升數據的質量和數量來提升整個模型的訓練效果的模型優化方式被越來越多業內人士所認同。人工智能領域的權威學者吳恩達發起了“以數據為中心的 AI”運動就是主張模型不變,優惠活動大廳通過改進數據集質量提升模型效果。在當前算力和算法難以拉開巨大差距的情況下,突破數據瓶頸、獲取更多高質量的數據成為大模型落地的關鍵。
來源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023
晴數智慧推出高質量MagicData-CLAM數據集
在中文高質量數據集稀缺的情境下,晴數智慧基于近20年在對話數據的專業積累,在國內首次推出了面向大模型SFT訓練的高質量數據集:MagicData-CLAM數據集。
該數據集包含一共5萬條Prompt和對應回答,數據的分布由晴數智慧數據專家團隊設計完成,覆蓋領域多樣性、任務多樣性,以及表達多樣性。數據版權完整清晰。
MagicData-CLAM幫助實現更優的大模型微調結果
為了更好地評估MagicData-CLAM的價值,晴數智慧研發團隊進行了一組實驗:基于chinese-llama-2-7b模型(該模型由開源項目 Linly 發布,是基于chinese-LLaMA2-7b訓練的中文底座模型),團隊分別使用約等量的MagicData-CLAM數據集和基于斯坦福Alpaca數據處理的高質量中文數據集進行微調,得到Chinese-llama2-CLAM(簡稱CLAM)大模型和Chinese-llama2-alpaca(簡稱Alpaca)模型。我們對這兩個模型以及基礎chinese-llama-2-7b模型(基線模型)的輸出結果進行評估。結果顯示,從大模型的表達自然度上,結果輸出結構化上,CLAM顯著更優;在輸出知識的正確性上CLAM也表現不錯。
測評樣例如下:
對比模型輸出的結果,我們發現:
-
CLAM模型相比Alpaca模型,對中文的理解更好,結果輸出上結構化更清晰。
-
Alpaca模型似乎容易先續寫幾句任務然后才開始進行回答,交互自然度稍有欠缺,而CLAM模型幾乎未出現這種情況。
-
Alpaca模型偶爾出現幻覺,如它的輸出結果有如此描述:經典的歌劇作品包括《托斯卡》、《費加羅的婚禮》、《魔笛》等,京劇作品如《茶館》、《空城計》、《雷雨》等。(《茶館》與《雷雨》并非京劇作品。)而在相關知識輸出中,CLAM模型較好地理解了歌劇,京劇等的區別,并輸出更合理的知識。
此實驗結果說明,調優數據集對基線模型的輸出結果有明顯影響,使用更高質量的數據集,模型能輸出更優的結果;Alpaca數據集是斯坦福大學研究團隊發布的高質量數據集代表,而CLAM模型的輸出結果優于Alpaca中文版模型,說明晴數智慧自研的MagicData-CLAM數據集是優質的中文高質量數據集。
優惠活動大廳通過電話:400-900-5251或郵箱:business@magicdatatech.com,聯系我們的數據專家,了解更多數據集詳情。
了解更多實驗過程,訪問:
https://magichub.com/datasets/magicdata-clam/
我們也將CLAM數據集Finetuning后的大模型進行了開源,發布在了huggingface開源社區上。歡迎更多的伙伴訪問、體驗、反饋。
獲取CLAM開源模型:
https://huggingface.co/MagicHub/clam-7b/tree/main
一場不同以往的新的競爭正在生成式人工智能領域展開,高質量數據在其中將成為越來越關鍵的因素。MagicData-CLAM數據集作為晴數智慧在國內首發的合規可商用高質量SFT數據集,希望能幫助國內大模型應用研發伙伴先人一步,占領制勝先機。