
產品推介|LLM多領域超自然SFT多輪對話文本數據集
發布時間 : 2024-01-08 閱讀量 : 2958
能夠流暢地與人類進行多輪交談,是現今的大語言模型 (LLM) 區別于傳統語言模型的重要特征之一。大模型可以使用自然語言對話與用戶互動,從用戶提供的 prompt 中理解指令、用戶意圖和上下文,并提供適當的反饋。
雖然對話對人類來說是自然的,但構建具備多輪對話能力的大模型是一項不小的挑戰,收集具備高表現力的訓練數據就是其中關鍵的一環。
晴數智慧深耕對話式AI領域多年,構建了累計千萬輪LLM多領域超自然SFT多輪對話文本數據集,覆蓋近20個語種及方言,語料話題分布廣泛,涉及休閑娛樂、衣食住行、教育醫療等近20個領域。
每組對話由兩名說話人圍繞一個主題展開,歷史的對話與當前的內容密切相關。適用于訓練大模型多輪對話 (back and forth conversation)、上下文邏輯堆理能力。同時貼合場景的自發對話賦予了數據極高的表現力,高表現力的數據帶來的豐富信息維度能夠使得模型更容易學到人類自然交談的特點,從而實現更強大、泛化能力更好的模型性能。
數據樣例
游戲主題
創業主題
晴數智慧LLM多領域超自然SFT多輪對話文本數據集處理過程遵循完整的晴數智慧數據合規保障機制,在整個數據生命周期中,保證數據的流轉可溯性,確保數據版權完整。
更多數據詳情,咨詢我們的數據專家。