出版商設置防線：AI模型訓練資料急劇減少

2024年7月22日

來自數據來源倡議（Data Provenance Initiative）的新研究發現，用於建構人工智慧的大量資料正迅速減少。

網路上的資料乾涸

多年來，建構強大人工智慧系統的人們利用從網路上提取的巨大文本、圖片和視頻集來訓練他們的模型。

然而，現在這些資料正在枯竭。

根據由麻省理工學院領導的研究小組數據來源倡議本週發表的研究，過去一年中，許多用於訓練人工智慧模型的重要網路來源已經限制了他們的資料使用。

研究結果和數據限制

這項研究檢查了包含在三個常用的人工智慧訓練資料集中14,000個網域，發現出版商和在線平台採取了措施，防止其數據被收集，導致「同意危機」的出現。

研究人員估計，在這三個資料集中，稱為C4、RefinedWeb和Dolma的資料集中，5%的所有數據和25%的高質量來源數據已被限制。這些限制是通過使用一個名為robots.txt的文件設置的，這是一種數十年前的方法，網站所有者用來阻止自動機器人爬取他們的頁面。

該研究還發現，在C4數據集中，多達45%的數據被網站的服務條款限制。

專家觀點

該研究的主要作者Shayne Longpre在一次採訪中表示：「我們看到網絡上同意使用數據的迅速下降，這不僅會影響人工智慧公司，還會影響研究人員、學者和非商業實體。」

數據是當今生成型人工智慧系統的主要成分，這些系統依賴數十億個文本、圖片和視頻例子來學習。這些數據中的大部分是由研究人員從公共網站刮取並編譯成大型數據集，這些數據集可以自由下載使用，或補充來自其他來源的數據。

學習這些數據使得生成型人工智慧工具如OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude能夠寫作、編碼並生成圖片和視頻。輸入這些模型的高質量數據越多，它們的輸出通常越好。

數據獲取的挑戰

多年來，人工智慧開發者能夠相對輕鬆地收集數據。但是，過去幾年的生成型人工智慧繁榮導致與數據所有者的緊張關係加劇——其中許多人對被用作人工智慧訓練材料有保留，或至少希望獲得報酬。

隨著反彈不斷增長，一些出版商設置了付費牆或改變了其服務條款，以限制其數據用於人工智慧訓練。其他人則阻止了OpenAI、Anthropic和Google等公司的自動網絡爬蟲。

像Reddit和StackOverflow這樣的網站已開始向人工智慧公司收取數據訪問費用，一些出版商甚至採取了法律行動，包括《紐約時報》，該報去年起訴OpenAI和Microsoft侵犯版權，指控這些公司在未經許可的情況下使用新聞文章來訓練其模型。

數據匱乏的影響

OpenAI、Google和Meta等公司近年來採取極端手段來收集更多數據以改進其系統，包括轉錄YouTube視頻並扭曲其自身的數據政策。

最近，一些人工智慧公司與包括美聯社和新聞集團在內的出版商達成協議，獲得其內容的持續訪問權限。

但廣泛的數據限制可能對人工智慧公司構成威脅，這些公司需要穩定供應的高質量數據來保持其模型的新鮮和更新。

這也可能對依賴公共數據集的較小人工智慧公司和學術研究人員構成麻煩，這些公司和研究人員無法負擔直接從出版商那裡許可數據的費用。Common Crawl就是這樣一個數據集，它由一個非營利組織維護，包含數十億頁網絡內容，據Longpre先生稱，該數據集已在超過10,000篇學術研究中被引用。

未來的挑戰和可能的解決方案

目前尚不清楚哪些流行的人工智慧產品是基於這些來源訓練的，因為很少有開發者披露他們使用的完整數據列表。但是，從Common Crawl衍生的數據集，包括C4（意為巨大的、清潔的爬取語料庫），已被Google和OpenAI等公司用於訓練其模型的早期版本。Google和OpenAI的發言人拒絕置評。

Hugging Face的機器學習研究員Yacine Jernite將這場同意危機描述為人工智慧行業激進數據收集行為的自然反應。

「不出所料，我們看到數據創作者在其在線分享的文本、圖片和視頻被用來開發有時直接威脅其生計的商業系統後的反彈，」他說。

但他警告說，如果所有人工智慧訓練數據都需要通過許可交易獲得，這將排除「研究人員和民間社會參與技術治理的機會」。

EleutherAI的執行董事Stella Biderman也表達了類似的擔憂。

「主要技術公司已經擁有所有的數據，」她說。「改變數據的許可不會追溯性地撤銷這些許可，主要影響的是後來的行動者，通常是較小的初創公司或研究人員。」

人工智慧公司聲稱，他們使用公共網絡數據在法律上受到合理使用的保護。但是，收集新數據變得更加棘手。一些人工智慧高管擔心達到「數據牆」——這是他們的術語，指的是互聯網上所有的訓練數據都已經耗盡，剩下的被付費牆隱藏，被robots.txt阻止或被鎖定在獨家交易中。

一些公司認為他們可以通過使用合成數據來跨越數據牆，即由人工智慧系統本身生成的數據來訓練他們的模型。但許多研究人員懷疑，當前的人工智慧系統是否能夠生成足夠高質量的合成數據以替代他們失去的人類創建數據。

數據限制的法律和技術挑戰

另一個挑戰是，雖然出版商可以嘗試通過在其robots.txt文件中設置限制來阻止人工智慧公司刮取他們的數據，但這些請求在法律上並不具有約束力，且遵守是自願的。（把它想像成一個針對數據的「禁止侵入」標誌，但沒有法律效力。）

主要搜索引擎遵守這些選擇退出請求，一些領先的人工智慧公司，包括OpenAI和Anthropic，也公開表示他們會這麼做。但其他公司，包括人工智慧驅動的搜索引擎Perplexity，被指控無視這些請求。Perplexity的首席執行官Aravind Srinivas告訴我，公司尊重出版商的數據限制。他補充說，雖然公司曾經與不總是遵循Robots Exclusion Protocol的第三方網絡爬蟲合作，但它已經「與我們的供應商做出了調整，確保他們在代表Perplexity爬取時遵循robots.txt。」

Longpre先生表示，該研究的一個主要結論是，我們需要新工具來讓網站所有者更精確地控制其數據的使用。一些網站可能反對人工智慧巨頭使用其數據來訓練盈利的聊天機器人，但可能願意讓非營利或教育機構使用相同的數據。他說，目前沒有很好的方法來區分這些用途，或在允許一個的同時阻止另一個。

但這裡對大型人工智慧公司也有一個教訓，他們多年間將互聯網視為無限量的數據自助餐，沒有給予數據所有者多少價值作為回報。最終，如果你利用網絡，網絡將開始關閉大門。

資料來源

返回網誌