FX168財經報社(北美)訊 週一(6月19日),隨着越來越多的人工智能生成的內容在網上發佈,未來的AI在這些材料上進行訓練時最終會變成一些無意義的內容。
一組英國和加拿大科學家在5月份發佈了一篇論文,旨在瞭解在幾代AI彼此之間進行訓練後會發生什麼情況。
其中一個案例是,第九代AI在原始的材料內容是關於中世紀建築的情況下,卻思想混亂的開始談論不相干的內容。
研究論文的作者之一、劍橋大學教授Ross Anderson在一篇關於研究結果的博客中寫道,數學模型顯示,「在幾代AI傳承之內,輸出的文本就變成了垃圾」。他們還指出,圖像也會失去可理解性。
這些科學家的論文尚未經過同行評審,他們將其稱爲「模型崩潰」。
ChatGPT和OpenAI等大型語言模型通常被認爲是基於從互聯網上獲取的大量數據進行訓練的,而這些數據直到最近都是主要由人類生成的。
但隨着我們對這些工具的使用增加,人工智能生成的內容正在大規模地添加到未來語言模型將學習的在線數據池中。
科學家們表示,經過幾代的訓練,這意味着錯誤和無意義的情況將會不斷增加,使得後續的人工智能無法區分事實和虛構。這些人工智能將會「開始錯誤地解釋他們認爲是真實的事物,從而強化他們自己的信念」。
Anderson使用莫扎特及其不那麼有才華的同時代作曲家安東尼奧·薩列裏的作品來說明這個問題。他寫道:「如果你用莫扎特訓練一個音樂模型,你會得到一些有點像莫扎特但缺乏亮點的輸出結果—我們稱之爲'薩列裏'。如果現在由薩列裏訓練下一代,依此類推,第五代或第六代會是什麼樣子?」
論文的首席作者、牛津大學的Ilia Shumailov博士表示,問題出在AI在之前的AI上進行訓練後對概率的理解。不太可能發生的事件在其輸出中越來越不太可能反映出來,這限制了下一代AI在理解上一代AI輸出的可能性。
論文中給出的一個例子是,將一個由人類生成的關於中世紀建築的文本輸入到一個AI語言模型中,然後使用該模型的輸出來訓練後續幾代的AI。
原始文本中對競爭的建築理論進行了熟練的處理,經過多次循環後,第九代的文本變成了無意義的內容。
Anderson將其比喻爲大規模的污染,寫道:「正如我們將海洋填滿了塑料垃圾,大氣層充斥着二氧化碳一樣,我們即將用無聊的內容填滿互聯網。」
人工智能生成的內容已經大規模地在網上出現。在線虛假信息監測機構NewsGuard在5月份警告稱,他們發現了49個新聞網站,看起來完全是由人工智能編寫的。
而根據《華盛頓郵報》的報道,營銷和公關機構越來越多地將它們的文案交給聊天機器人,使人類作家失去了工作機會。
但是,在Shumailov和Anderson的研究結果出來之後,希望不被AI超越的人類作家們還不能太過自滿。
Shumailov表示,人類生成的數據並不是訓練AI所必需的絕對要素,人類生成的數據之所以有用,是因爲它們包含了自然變化、錯誤和不太可能的結果。「所以人類肯定會提供幫助,但同時也不意味着人類數據是一個重大要求。」