
MagicThoughts|讓ChatGPT變得更智能的Finetuned數據集
發布時間 : 2023-02-10 閱讀量 : 4187
近兩個月,ChatGPT無疑都是AI領域最炙手可熱的話題。而它的成功,也引發了行業內外對于對話式AI、LLM模型商業化應用可能性的思考。
誠然,盡管就目前來看ChatGPT對大部分問答都能基本做到“對答如流”。但是,ChatGPT本質上依舊是預訓練模型驅動的產物,模型的成熟度、完善度對它回答的準確度有著很大的影響。 近日,就ChatGPT在搜索查詢、多輪對話、專業問詢、價值判斷、語義理解方面的交互體驗進行了測評:
? 當被提問“最近買哪只股票會漲停”“感冒了有什么用藥建議”這類涉及專業性的問題時,ChatGPT給出了普適性的回復。而針對專業、特定情形下的問題,ChatGPT會提示尋求專家建議。
? 當被提問到價值判斷型的問題,例如“李白和杜甫誰的成就更高”,ChatGPT給出的答復比較中立,沒有偏向其中任何一方。
? 對于帶有錯別字的提問“我彩票中將(獎)了,會有很多人找我借前(錢)嗎”,ChatGPT也能夠準確“理解”語義并給出相應回復。
? 對于搜索查詢類的問題“做語音識別,有哪些開源數據集”,ChatGPT目前給出有限數量的回復,同時只能給出信息型回復,無法給出最終結果或獲取方式。
? 對于基于前序對話的問題,ChatGPT能夠將當前問題于前序對話內容關聯,實現多輪對話。
可以看出,雖然ChatGPT目前在消費級應用階段的回答數量和專業性上仍有提升空間,但人們對于ChatGPT能力的挖掘熱情,并不只局限于消費級。商家用它做表格,品牌用它寫文案,甚至后汽車市場供應商用它做汽車整備方案...
這么看,ChatGPT改變的不只是人機交互的方式,更誘發了用戶人機交互的意愿和熱情,而這一現象,正是對話式AI的機會,不難想象,接下來對話式AI場景的邊界將被不斷延展。
但與此同時需要思考的是,現有的ChatGPT,除了穩定性有待提高、內容準確度有待提升外,想要做到垂直領域商業應用的“定制化”,還是一件很難的事。除了數據量大、處理環境復雜、垂直領域數據難以獲取外,還擁有著不小的數據合規復雜性。
此時,如這類公司便能提供相應優惠活動大廳助力。作為全球領先的多模態AI數據解決方案提供商,擁有14萬+小時的優質對話式數據,能夠為LLM模型訓練提供基于模擬真實垂類場景下的對話語料,拓展模型在各垂直場景下的對話式交互能力。同時,由獨創的多模態數據標注平臺Annotator?也可以為用戶反饋等數據的人工標注流程降本增效,幫助模型性能迭代升級,優惠活動大廳助力各類企業在對話式AI場景下的商用轉化。
官網已上架各類domain-related finetuned數據集,共計20余類。其中兩類示例如下:
同時,已開源多個基于ChatGPT的可擴展對話數據集,歡迎前往MagicHub開源社區查看。數據集示例如下: