
數(shù)據(jù)開源 | 開源中日跨境電商平行語料1000+
發(fā)布時間 : 2022-12-01 閱讀量 : 1533
如果問近兩年最熱的概念,相信不少人會回答:元宇宙。但元宇宙到底是什么,目前還尚未有明確定義。廣義來說,元宇宙是一個視覺圖像豐富的虛擬空間,在這個空間中人們可以工作、娛樂、購物、社交等。
你可以想像自己真的“存在”于一個虛擬的世界中,不僅可以訂制自己的化身 (Avatar),還能夠擁有數(shù)位資產,從而可以與來自全世界不同地區(qū)、不同膚色、不同語種的伙伴進行互動交流。
跨境電商中的虛擬人
如今元宇宙已經(jīng)滲透到各行各業(yè),從游戲到影視,從客服到電商,從主播到藝術界、旅游界等等,仿佛一夜之間我們的生活離不開元宇宙的加持。
而提到元宇宙的商業(yè)前景和發(fā)展,虛擬人絕對會占有一席之地。各類虛擬人不斷跨界,不僅成功變身新一代IP偶像,甚至不乏影視明星和歌手。其中,電商領域客服則是虛擬人營業(yè)最多的場景之一,也是我們經(jīng)常在購物APP中見到的7x24小時在線的電商小姐姐小哥哥。
目前國內各大電商平臺的競爭已進入白熱化,眾多電商平臺開始布局跨境電商。11月24日,國務院批復同意在廊坊市、滄州市、運城市等33個城市和地區(qū)設立跨境電子商務綜合試驗區(qū)。這是中國設立的第七批跨境電子商務綜合試驗區(qū)。此次擴圍之后,中國跨境電子商務綜合試驗區(qū)數(shù)量達到165個,覆蓋31個省份。這也體現(xiàn)了國家對于跨境電商的大力支持。
跨境電商的溝通挑戰(zhàn)
困擾跨境電商發(fā)展的重要問題之一在于語言,采用多語系直播人員會大幅增加企業(yè)的資金成本和時間成本投入。而虛擬人則體現(xiàn)出其獨有的強大優(yōu)勢,比真人效率高、待機時間長、可復用性強,具有巨大的商業(yè)潛力。
虛擬人主流的對話功能主要依賴自動語音識別、自然語言處理、自動語音合成技術。目前這三種技術都是依賴深度學習模型,需要經(jīng)過大量數(shù)據(jù)的訓練,才能夠得到可以識別和合成文本、語音的虛擬人。
而訓練掌握雙語種甚至多語種的虛擬人,需要多語種的平行語料。平行語料庫是由原文文本及其平行對應的譯語文本構成的雙語或多語語料庫。其對齊程度可有詞級、句級、段級和篇級幾種。平行語料庫按翻譯方向的不同有單向平行語料庫、雙向平行語料庫和多向平行語料庫等三種形式。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,可以用于翻譯或者機器翻譯研究。
但是由于平行語料采集比單一語種語料庫需要更加高級的采錄人員,投入更多的時間和財力成本,因此非常稀缺。很多基于平行語料研究的自動語音識別、自然語言處理、語音合成技術的研究和落地,都因為數(shù)據(jù)的缺乏,沒能得到很好的推進和執(zhí)行。
數(shù)據(jù)開源 | 跨境電商場景中日平行語料庫
為更好的優(yōu)惠活動大廳助力跨境電商虛擬人客服的發(fā)展,開源跨境電商場景下的中日平行語料庫,為模型訓練提供幫助。本次開源1000+中日平行語料數(shù)據(jù)集,文本內容選自電商平臺。數(shù)據(jù)類別豐富多樣,包含如數(shù)碼產品、衣帽服飾、兒童玩具、美發(fā)美妝等多種商品種類。數(shù)據(jù)題材涉獵廣泛,包含商品標題、產品說明、用戶評價、商戶問答等。文本由日本本國譯員完成,并由在日華人進行校對,適用于零售場景的機器翻譯領域。
數(shù)據(jù)集下載:https://magichub.com/datasets/nlp_chinese-japanese-parallel-corpus-e-commerce/
海量數(shù)據(jù)的開源是眾多科研工作者的訴求,希望優(yōu)惠活動大廳通過開源數(shù)據(jù)激發(fā)技術的革新,促進行業(yè)進步。
更多開源數(shù)據(jù),歡迎訪問 MagicHub 開源社區(qū) https://magichub.com/