OpenAI GPT-4o發布遇挑戰，中文數據品質引發爭議

2024年5月26日

由於中國互聯網運作方式的特殊性，找到高質量的數據集變得相當困難。

GPT-4o 的發布引發的問題

上週發布的GPT-4o，一種可以用語音、文本或視頻進行互動的新型AI「全模」原本應該是OpenAI的一個重大時刻。但僅僅幾天後，該公司似乎陷入了大麻煩。從大多數安全團隊的辭職到Scarlett Johansson指控其在未經同意的情況下為該模型復制她的聲音，OpenAI現在處於損害控制模式。

再加上OpenAI在GPT-4o上犯下的另一個錯誤：它用於訓練其標記器（幫助模型更有效地解析和處理文本的工具）的數據被中國垃圾網站污染。結果，該模型的中文標記庫中充滿了與色情和賭博有關的短語。這可能會加劇AI模型常見的一些問題：幻覺、性能差和誤用。

研究者揭示問題

我在週五寫了一篇文章，報道了幾位研究者和AI行業內部人士指出的這一問題。他們查看了GPT-4o的公共標記庫，這個庫隨著新模型的更新顯著增加了對非英語語言的支持，並發現模型中100個最長的中文標記中有超過90個來自垃圾網站。這些短語包括「_免費觀看日本色情視頻」、「北京賽車投注」和「中國福利彩票每日抽獎」。

任何懂中文的人都能立刻看出這些標記的問題。由於網上成人內容的流行，一些這樣的短語不可避免地會進入訓練數據集，但它們佔據了模型訓練中使用的中文的90%？這令人震驚。

卡內基梅隆大學計算機科學博士生耿正陽說：「作為一個中國人，看到這樣的情況感到尷尬。這是數據質量的問題嗎？是因為數據清理不足還是語言本身就是這樣？」

標記反映文化與數據的挑戰

從OpenAI為GPT-4o選擇的標記中得出對一種語言或文化的結論是很容易的。畢竟，這些標記被選為各自語言中常見和重要的短語。一位來自香港的研究員Henry Luo發表了一篇有趣的博客文章，他查詢了GPT-4o中不同語言的最長標記，發現它們似乎有不同的主題。俄語標記反映了與政府和公共機構有關的語言，而日語標記中有很多不同方式的「謝謝」。

在我發表文章後，加州大學聖地亞哥分校政治學教授Victor Shih在X上評論道：「當你試圖不訓練中國國家媒體內容時，這就是你得到的結果。」

這半開玩笑，半認真地指出了訓練大型語言模型說中文的兩個最大問題：網上隨時可用的數據要么反映的是官方認可的談論中國的方式，要么是無處不在的垃圾內容，淹沒了真正的對話。

訓練數據的來源問題

事實上，在GPT-4o中少數不是色情或賭博廢話的中文長標記中，有兩個是「具有中國特色的社會主義」和「中華人民共和國」。這些短語的出現表明，訓練數據中有相當一部分實際上來自中國國家媒體的文章，那裡正式的長表達非常常見。

OpenAI歷來對其用於訓練模型的數據非常保密，可能永遠不會告訴我們其中文訓練數據庫中有多少來自國家媒體，有多少來自垃圾信息。（OpenAI未回應《麻省理工科技評論》週五發送的詳細問題。）

但這並不是唯一一家面臨這個問題的公司。中國AI行業內部人士同意，缺乏高質量的中文文本數據集來訓練大型語言模型。一個原因是中國互聯網曾經是，且在很大程度上仍然是，被像騰訊和字節跳動這樣的大公司分割的。他們擁有大多數社交平台，並且不會與競爭對手或第三方分享他們的數據來訓練大型語言模型。

數據獨占影響AI模型

事實上，這也是為什麼搜索引擎，包括Google，在中文搜索方面表現不佳的原因之一。由於微信內容只能在微信上搜索，抖音（中國版TikTok）上的內容只能在抖音上搜索，這些數據對第三方搜索引擎不可訪問，更不用說大型語言模型了。但這些平台才是實際上人類對話發生的地方，而不是一些試圖引誘你進行在線賭博的垃圾網站。

高質量訓練數據的缺乏是一個比在GPT-4o的標記訓練數據中未能過濾掉色情和一般廢話更大的問題。如果沒有現成的數據集，AI公司必須投入大量工作來識別、獲取和整理自己的數據集，並過濾掉不適當或有偏見的內容。

看起來OpenAI並沒有做到這一點，公平地說，這有一定的道理，因為中國內地的人無法使用其AI模型。

儘管如此，仍有許多生活在中國以外的人希望用中文使用AI服務。他們應該像任何其他語言的使用者一樣，得到一個正常工作的產品。

資料來源

返回網誌