由於中國互聯網運作方式的特殊性,找到高質量的數據集變得相當困難。
GPT-4o 的發布引發的問題
上週發布的GPT-4o,一種可以用語音、文本或視頻進行互動的新型AI「全模」原本應該是OpenAI的一個重大時刻。但僅僅幾天後,該公司似乎陷入了大麻煩。從大多數安全團隊的辭職到Scarlett Johansson指控其在未經同意的情況下為該模型復制她的聲音,OpenAI現在處於損害控制模式。
再加上OpenAI在GPT-4o上犯下的另一個錯誤:它用於訓練其標記器(幫助模型更有效地解析和處理文本的工具)的數據被中國垃圾網站污染。結果,該模型的中文標記庫中充滿了與色情和賭博有關的短語。這可能會加劇AI模型常見的一些問題:幻覺、性能差和誤用。
研究者揭示問題
我在週五寫了一篇文章,報道了幾位研究者和AI行業內部人士指出的這一問題。他們查看了GPT-4o的公共標記庫,這個庫隨著新模型的更新顯著增加了對非英語語言的支持,並發現模型中100個最長的中文標記中有超過90個來自垃圾網站。這些短語包括「_免費觀看日本色情視頻」、「北京賽車投注」和「中國福利彩票每日抽獎」。
任何懂中文的人都能立刻看出這些標記的問題。由於網上成人內容的流行,一些這樣的短語不可避免地會進入訓練數據集,但它們佔據了模型訓練中使用的中文的90%?這令人震驚。
卡內基梅隆大學計算機科學博士生耿正陽說:「作為一個中國人,看到這樣的情況感到尷尬。這是數據質量的問題嗎?是因為數據清理不足還是語言本身就是這樣?」
標記反映文化與數據的挑戰
從OpenAI為GPT-4o選擇的標記中得出對一種語言或文化的結論是很容易的。畢竟,這些標記被選為各自語言中常見和重要的短語。一位來自香港的研究員Henry Luo發表了一篇有趣的博客文章,他查詢了GPT-4o中不同語言的最長標記,發現它們似乎有不同的主題。俄語標記反映了與政府和公共機構有關的語言,而日語標記中有很多不同方式的「謝謝」。
在我發表文章後,加州大學聖地亞哥分校政治學教授Victor Shih在X上評論道:「當你試圖不訓練中國國家媒體內容時,這就是你得到的結果。」
這半開玩笑,半認真地指出了訓練大型語言模型說中文的兩個最大問題:網上隨時可用的數據要么反映的是官方認可的談論中國的方式,要么是無處不在的垃圾內容,淹沒了真正的對話。
訓練數據的來源問題
事實上,在GPT-4o中少數不是色情或賭博廢話的中文長標記中,有兩個是「具有中國特色的社會主義」和「中華人民共和國」。這些短語的出現表明,訓練數據中有相當一部分實際上來自中國國家媒體的文章,那裡正式的長表達非常常見。
OpenAI歷來對其用於訓練模型的數據非常保密,可能永遠不會告訴我們其中文訓練數據庫中有多少來自國家媒體,有多少來自垃圾信息。(OpenAI未回應《麻省理工科技評論》週五發送的詳細問題。)
但這並不是唯一一家面臨這個問題的公司。中國AI行業內部人士同意,缺乏高質量的中文文本數據集來訓練大型語言模型。一個原因是中國互聯網曾經是,且在很大程度上仍然是,被像騰訊和字節跳動這樣的大公司分割的。他們擁有大多數社交平台,並且不會與競爭對手或第三方分享他們的數據來訓練大型語言模型。
數據獨占影響AI模型
事實上,這也是為什麼搜索引擎,包括Google,在中文搜索方面表現不佳的原因之一。由於微信內容只能在微信上搜索,抖音(中國版TikTok)上的內容只能在抖音上搜索,這些數據對第三方搜索引擎不可訪問,更不用說大型語言模型了。但這些平台才是實際上人類對話發生的地方,而不是一些試圖引誘你進行在線賭博的垃圾網站。
高質量訓練數據的缺乏是一個比在GPT-4o的標記訓練數據中未能過濾掉色情和一般廢話更大的問題。如果沒有現成的數據集,AI公司必須投入大量工作來識別、獲取和整理自己的數據集,並過濾掉不適當或有偏見的內容。
看起來OpenAI並沒有做到這一點,公平地說,這有一定的道理,因為中國內地的人無法使用其AI模型。
儘管如此,仍有許多生活在中國以外的人希望用中文使用AI服務。他們應該像任何其他語言的使用者一樣,得到一個正常工作的產品。