• 
    <strike id="qc0qw"></strike>
  • <strike id="qc0qw"><menu id="qc0qw"></menu></strike>
    中國西藏網 > 即時新聞 > 時政

    大模型發展亟需高質量“教材”相伴

    發布時間:2024-01-19 10:29:00來源: 科技日報

      科技日報記者 羅云鵬

      1月5日,美國人工智能公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數百萬篇文章訓練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數據來源于ChatGPT。

      這些事件劍指同一個問題——大模型高質量語料短缺。“對于從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”

      大模型訓練語料短缺問題嚴重

      科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。

      雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。OpenAI也公開表達過對數據告急的擔憂。

      值得注意的是,當前大模型數據集主要為英文。中文語料面臨的短缺問題更加嚴峻。

      中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。

      上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量。”章健說。

      高質量語料應具備七大特征

      那么,何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案:高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害等七大特征。

      邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學習到更豐富的語言表達。

      同時,高質量語料要具有較大規模,因為大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特征。

      此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型產生不恰當的回答或建議,或無意中泄露他人隱私。

      “高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

      完善相關機制提高語料質量

      記者在采訪中了解到,目前訓練大模型的語料有一部分是從數據公司購買的,也有一部分是從網絡公開語料或者公開數據集中獲取并整理的。“從數據公司購買的語料質量較高,并且大多是垂域數據,但其數據量較少且價格較貴。”邵睿說,“網絡公開語料通用性較好,數據量大,但數據質量無法保證,數據格式難以統一。”

      “人類產生的有效信息,包括大量高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人說,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,是一個至關重要的問題。”這位發言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數據交換機制,推動人工智能數據基礎設施化。

      正如這位發言人所說,目前業界正在采取一些措施,推動數據交換機制的建設。記者梳理發現,2023年7月,深圳數據交易所聯合近50家單位成立開放算料聯盟。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。

      同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。這次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

      除了建設更為完善的體制機制,數據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發言人透露,該公司在數據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數場合介紹過GPT-4訓練的經驗,但從未公開過數據清洗的經驗。

    (責編:李雨潼)

    版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

    精品久久久久成人码免费动漫 | 亚洲午夜成人精品电影在线观看| 亚洲Av永久无码精品三区在线| 亚洲av无码国产精品色在线看不卡 | 国产精品100页| 精品一区二区三区在线观看视频| 国产亚洲一区二区精品| 日韩精品一区二区三区毛片| 国产精品怡红院在线观看| 麻豆文化传媒精品一区二区| 久久99精品久久久久麻豆| 久久久精品午夜免费不卡| 三上悠亚精品一区二区久久| 精品亚洲一区二区三区在线播放| 国产成人高清精品免费软件 | 中文字幕一区日韩精品| 亚洲国产精品日韩专区AV| 无码国产精品一区二区免费| 久久久影院亚洲精品| 久久精品男人影院| mm1313亚洲精品国产| 国产精品乱码在线观看| 国产精品视频视频久久| 国产精品视频yuojizz| 国产精品久久自在自线观看| 亚洲精品国产啊女成拍色拍 | 久久久久久久久无码精品亚洲日韩| 日韩熟女精品一区二区三区| 亚洲精品无码国产片| 99久久做夜夜爱天天做精品| 精品久久久久久久久午夜福利| 精品国产午夜理论片不卡| 亚洲乱码一区二区三区国产精品 | 午夜精品久久久久久影视777| 四虎精品成人免费视频| 亚洲国产成人久久精品99| 精品国产一区二区三区AV性色| 久久久久国产日韩精品网站| 日本无码小泬粉嫩精品图| 亚洲国产精品尤物YW在线观看 | 91亚洲精品第一综合不卡播放|