
數據開源 | 開源基于ChatGPT的可擴展的對話數據集
發布時間 : 2022-12-21 閱讀量 : 3511
在過去的一月里,人工智能領域中最火的話題莫過"ChatGPT"。ChatGPT是OpenAI于11月30日發布最新作品聊天機器人,開放公眾免費測試。聊天機器人是一種軟件應用程序,根據用戶的提問做出回應、模仿人類的對話方式。目前,ChatGPT的用戶量已經超過一百萬。它既能完成包括寫代碼,修bug(代碼改錯),翻譯文獻,寫小說,寫商業文案,創作菜譜,做作業,評價作業等一系列常見文字輸出型任務,而且在和用戶對話時,能記住對話的上下文,反應非常逼真。連馬斯克都在推特上稱贊道,“ChatGPT真是驚人的好。我們離危險的強大人工智能不遠了”:
甚至有人傳言下一代GPT4可能可以取代Google、百度等傳統搜索引擎。讓世界科技大佬都稱贊的ChatGPT,到底是如何對答如流的呢?
ChatGPT技術框架
據OpenAI報道,ChatGPT模型是“從人類反饋中強化學習”(RLHF)的機器學習技術訓練的。RLHF可以模擬對話,回答衍生問題,承認錯誤,質疑不正確的前提,并且拒絕不適當的請求。其底層結構仍然是基于自我注意力機制(self-attention)的transformer模型。該模型能夠同時并行進行數據計算和模型訓練,訓練時長更短,并且訓練得出的模型可用語法解釋,也就是模型具有可解釋性。
與所有大數據模型一樣,ChatGPT同樣也是經過“預訓練+微調”的過程,但是OpenAI這次在數據收集上設置上有了細微的差別。結合人類反饋信息來訓練語言模型使其能理解指令,也就是模型訓練中加入了人類的評價和反饋數據,而不僅僅是事先準備好的數據集。優惠活動大廳通過公測形式可以積累大量用戶反饋數據繼續優化ChatGPT的性能。引入“人工標注數據+強化學習“來不斷Fine-tune預訓練語言模型,主要目的是讓LLM模型學會理解人類的命令指令的含義,其訓練步驟分為三部:
[來源](http:/https://openai.com/blog/chatgpt/ /)
第一階段:首先會從測試用戶提交的prompt(就是指令或問題)中隨機抽取一批,靠專業的標注人員,給出指定prompt的高質量答案,然后用這些人工標注好的數據來Fine-tune GPT 3.5模型。第二階段:優惠活動大廳通過人工標注訓練數據,來訓練回報模型。第三階段:采用強化學習來增強預訓練模型的能力。基于上述算法和訓練技巧,相對以往的人機對話模型來說,ChatGPT可以非常好地模擬人類的聊天行為,理解能力和交互性表現也更強,并能精準地回答用戶提問,將大幅提升用戶使用體驗。
智能 or 智障
盡管ChatGPT對大部分問答回復的都非常完美,但是,ChatGPT本質上和傳統的聊天機器人并沒有分別——它并不理解自己所說的話,有時回答內容還是會犯一些低級錯誤。一段“網友調教這只AI”的聊天記錄,讓人不禁質疑AI是否真的鄙人聰明,對于27是質數與否為題回答有誤,也表明了人工智能“智障”的一面。
數據開源
ChatGPT的智能是以大量對話數據的訓練為基石,“智障”是由于數據不完備造成。據統計,從ChatGPT進化到ChatGPT-3的過程相當燒數據—參數量從1.17億增加到1750億,預訓練數據量從5GB增加到45TB。盡管如此吃數據,仍沒成長為全面人工智人。可見需要源源不斷的真實場景數據的訓練,才會讓ChatGPT越來越好。
但是對話數據的采集成本較高,需要專業的數據公司團隊采集、清洗、標注。作為全球領先AI數據解決方案提供商,的對話式AI數據集可以為類似ChatGPT的大模型提供各類垂直場景下的對話語料,幫助機器學習模型性能定向調優,拓展其特定場景下的對話式AI交互能力。
MagicHub數據開源社區已開源部分基于ChatGPT的可擴展的對話數據集,包括:
教育客服文本數據集
樣例:
金融客服文本數據集
樣例:
醫療客服文本數據集
樣例:
中文日常聊天文本數據集
樣例:
即刻前往MagicHub數據開源社區,免費下載使用!
中文教育客服文本數據集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-education/
中文金融客服文本數據集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-finance/
中文醫療客服文本數據集
https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-healthcare/
中文日常聊天文本數據集
https://magichub.com/datasets/chinese-conversational-text-corpus-daily-life/