国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

百里挑一“萃取”數據精華,上海AI實驗室開源發(fā)布高質量語料“萬卷CC”

資訊
  • 廠商稿件
  • 2024-03-13 14:04

近日,上海人工智能實驗室(上海AI實驗室)發(fā)布新一代高質量大模型預訓練語料“萬卷CC”(WanJuan-CC),首批開源的語料覆蓋過去十年互聯(lián)網上的公開內容,包含1千億字符(100B token),約400GB的高質量英文數據。作為“大模型語料數據聯(lián)盟”今年首發(fā)的開源語料,WanJuan-CC將為學界和業(yè)界提供大規(guī)模、高質量的數據支撐,助力構建更智能可靠的AI大模型。

預訓練數據的質量對大模型整體性能至關重要。當前,CommonCrawl(CC)數據集因其規(guī)模大、跨度廣而成為國際主流大模型訓練數據的重要來源。與此同時,其原始數據格式復雜、數據質量低等問題,或將導致模型訓練效率低,甚至可能引發(fā)價值觀對齊等方面的隱患。

中國科研人員通過原創(chuàng)的數據清洗技術,從CC數據庫中抽取約1300億份原始數據文檔進行再處理,“萃取”出其中約1.38%的高質量內容,構建成WanJuan-CC語料庫。實驗結果顯示,WanJuanCC具有高文本質量、高信息密度的特點,可滿足當前大模型訓練對大規(guī)模高質量語料的需求。

上海AI實驗室發(fā)布的書?·浦語2.0(InternLM2)即以WanJuan-CC為關鍵數據作支撐,使訓練效率和語言建模能力大幅提升,綜合性能領先開源社區(qū)。

開源數據:https://opendatalab.com/OpenDataLab/WanJuanCC

高質量語料驅動,效率性能雙提升

近期,上海AI實驗室發(fā)布了新一代大語言模型書?·浦語2.0(InternLM2)?;貧w語言建模本質,InternLM2綜合性能達到同量級開源模型的領先水平。模型基座語言建模能力的提升,則得益于預訓練文本質量及信息密度的增強。作為InternLM2的關鍵預訓練語料,WanJuan-CC的文本質量和高信息密度經過了模型實際驗證。在InternLM2的訓練過程中,在僅使用約60%的訓練數據情況下,模型即獲得了與此前使用1T token相同的性能表現(xiàn),大幅提升訓練效率,并使模型在相同語料規(guī)模上取得了更好的性能。

綠色曲線為InternLM2使用WanJuan-cc作為預訓練語料,在不同數據規(guī)模上取得的任務性能分布,結果顯示,WanJuan-CC可大幅提升模型訓練效率

研究團隊通過對CC原始數據進行清洗,去除了網頁代碼和重復內容,同時利用分類模型剔除了廣告和質量較差的信息,并通過內容一致性、語法正確性、數據噪聲和信息價值等四個維度,對語言的流暢性進行評估。為驗證數據質量,研究團隊使用WanJuan-CC和RefineWeb(從CommonCrawl中抽取并構建的主流英文預訓練語料)分別重新訓練了參數量1B的模型,并進行評測。結果顯示,由WanJuan-CC作為訓練數據的模型在多項驗證中取得了更優(yōu)效果。

基于WanJuan-CC訓練的1B模型在Pile驗證集評測效果更優(yōu),這表明由WanJuan-CC訓練的模型在不同領域和各類知識上擁有更強能力

四重處理, 百里挑一“萃取”高質量數據

為從浩如煙海的CC數據庫中“精選”最可靠的信息,研究團隊搭建了高性能分布式數據處理基礎設施,通過啟發(fā)式規(guī)則過濾、多層級數據去重、內容安全過濾、數據質量過濾等四個步驟,從原始數據中“萃取”出高質量數據,數據留存率僅為原數據的1.38%。

通過原創(chuàng)技術,對CC原始數據進行多階段處理,得到了高信息密度的WanJuan-CC

研究團隊首先從CC中抽取了約1300億份原始數據文檔,然后基于高性能數據處理工作流得到2.2T token(35.8億個文檔)安全數據,最后,根據質量排序精選出1T token(3.6億個文檔)質量最高的數據,構建成WanJuan-CC。如以下柱狀圖所示,在WanJuan-CC構建過程中的每一階段,均進行了大比例的數據去除。對于僅占原CC數據比例2.76%的安全信息,研究人員再次“篩”掉五成低質內容,最終呈現(xiàn)出“百里挑一”的高質量數據。

各清洗階段的文檔保留率和去除率(本圖使用對數坐標軸)

數據質量高,模型更可靠

為推動訓練更智能可靠的AI大模型,研究團隊以保障數據安全性為前提,在數據處理的各環(huán)節(jié)均實施了多項安全加固措施,使WanJuan-CC成為目前開源CC語料中首個在毒性(Toxic)、色情(Porn)和個人隱私三方面同時進行了安全加固的英文語料,因而在價值對齊方面具有更高的可靠性。

與部分開源CC語料多維度對比,在毒性、色情和個人隱私等方面,WanJuan-CC均進行了安全加固

研究人員分別對WanJuan-CC、Redpajama和Refineweb數據集進行了10萬條數據的抽樣,從毒性、侮辱、恐嚇等7個維度進行評分,以驗證各數據集的信息安全性。結果顯示,WanJuan-CC在各維度上的體現(xiàn)出最高安全性。

WanJuan-CC與其他開源英文CC語料安全性對比

高質量、多模態(tài)、寬領域的數據已成為支持當前人工智能大模型發(fā)展的重要基石。WanJuan-CC的主要構建團隊——OpenDataLab致力于建設面向人工智能開發(fā)者的超大規(guī)模、高質量、多模態(tài)開放數據服務平臺,目前已匯聚高質量多模態(tài)數據集超6500個,涵蓋大模型研發(fā)應用所需的各類語料數據。


大模型語料數據聯(lián)盟

由上海人工智能實驗室聯(lián)合中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業(yè)集團、上海文廣集團等10家單位聯(lián)合發(fā)起。為應對大模型發(fā)展對高質量、大規(guī)模、安全可信語料數據資源的需求,保障大模型科研攻關及相關產業(yè)生態(tài)發(fā)展,大模型語料數據聯(lián)盟于2023年7月6日世界人工智能大會開幕式上宣布成立,旨在通過鏈接模型訓練、數據供給、學術研究、第三方服務等多方面機構,聯(lián)合打造多知識、多模態(tài)、標準化的高質量語料數據,探索形成基于貢獻、可持續(xù)運行的激勵機制,打造國際化、開放型的大模型語料數據生態(tài)圈。

下載更多開源語料,請登錄大模型語料數據聯(lián)盟開源數據服務指定平臺:

https://opendatalab.com

來源:廠商稿件

作者:投稿

編輯:leilei

圖片來源:

本文鏈接: http://givenhand.cn/article/20240313/1642.html

  • 數據
  • 開源
免責聲明:本網站出于傳播商業(yè)信息之目的進行轉載發(fā)布,不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權利和法律責任歸提供方所有和承擔。本網站對文中的圖文等所有信息的真實性不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。本網站的任何內容僅供參考,不能做為投資、采購或行為決策依據,據此操作者風險自擔。

相關文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢

    2021世界制造業(yè)大會于11月22日在合肥落下帷幕。為期四天的大會中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產品?,F(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤,折疊起來之后的厚度大約為24毫米。當保持半開狀態(tài)時,可以像拿本書一樣握住,并且能同時運行兩個應用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機競爭中失敗,日本在聯(lián)網汽車領域舉步維艱 智能手機競爭中失敗,日本在聯(lián)網汽車領域舉步維艱

    據外媒報道,在制造帶有數字聯(lián)網服務的汽車的競爭中,豐田汽車和日產汽車面臨著被本土市場拖累的風險。與美國和歐洲的汽車消費者不同的是,日本消費者不愿意為這些聯(lián)網功能和服務買單。結果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應用3萬臺工業(yè)機器人 2020年河南省將推廣應用3萬臺工業(yè)機器人

    到2020年,推廣應用3萬臺工業(yè)機器人,建設1000條智能生產線、300個智能車間、150個智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標簽