💎 挖掘低估值寶藏股立即開始

人工智能遇上大麻煩了! 產出內容全是「垃圾」 科學家警告AI訓練AI將產生「模型崩潰」

發布 2023-6-20 上午02:36
© Reuters 人工智能遇上大麻煩了! 產出內容全是「垃圾」 科學家警告AI訓練AI將產生「模型崩潰」

FX168財經報社(北美)訊 週一(6月19日),隨着越來越多的人工智能生成的內容在網上發佈,未來的AI在這些材料上進行訓練時最終會變成一些無意義的內容。

一組英國和加拿大科學家在5月份發佈了一篇論文,旨在瞭解在幾代AI彼此之間進行訓練後會發生什麼情況。

其中一個案例是,第九代AI在原始的材料內容是關於中世紀建築的情況下,卻思想混亂的開始談論不相干的內容。

研究論文的作者之一、劍橋大學教授Ross Anderson在一篇關於研究結果的博客中寫道,數學模型顯示,「在幾代AI傳承之內,輸出的文本就變成了垃圾」。他們還指出,圖像也會失去可理解性。

這些科學家的論文尚未經過同行評審,他們將其稱爲「模型崩潰」。

ChatGPT和OpenAI等大型語言模型通常被認爲是基於從互聯網上獲取的大量數據進行訓練的,而這些數據直到最近都是主要由人類生成的。

但隨着我們對這些工具的使用增加,人工智能生成的內容正在大規模地添加到未來語言模型將學習的在線數據池中。

科學家們表示,經過幾代的訓練,這意味着錯誤和無意義的情況將會不斷增加,使得後續的人工智能無法區分事實和虛構。這些人工智能將會「開始錯誤地解釋他們認爲是真實的事物,從而強化他們自己的信念」。

Anderson使用莫扎特及其不那麼有才華的同時代作曲家安東尼奧·薩列裏的作品來說明這個問題。他寫道:「如果你用莫扎特訓練一個音樂模型,你會得到一些有點像莫扎特但缺乏亮點的輸出結果—我們稱之爲'薩列裏'。如果現在由薩列裏訓練下一代,依此類推,第五代或第六代會是什麼樣子?」

論文的首席作者、牛津大學的Ilia Shumailov博士表示,問題出在AI在之前的AI上進行訓練後對概率的理解。不太可能發生的事件在其輸出中越來越不太可能反映出來,這限制了下一代AI在理解上一代AI輸出的可能性。

論文中給出的一個例子是,將一個由人類生成的關於中世紀建築的文本輸入到一個AI語言模型中,然後使用該模型的輸出來訓練後續幾代的AI。

原始文本中對競爭的建築理論進行了熟練的處理,經過多次循環後,第九代的文本變成了無意義的內容。

Anderson將其比喻爲大規模的污染,寫道:「正如我們將海洋填滿了塑料垃圾,大氣層充斥着二氧化碳一樣,我們即將用無聊的內容填滿互聯網。」

人工智能生成的內容已經大規模地在網上出現。在線虛假信息監測機構NewsGuard在5月份警告稱,他們發現了49個新聞網站,看起來完全是由人工智能編寫的。

而根據《華盛頓郵報》的報道,營銷和公關機構越來越多地將它們的文案交給聊天機器人,使人類作家失去了工作機會。

但是,在Shumailov和Anderson的研究結果出來之後,希望不被AI超越的人類作家們還不能太過自滿。

Shumailov表示,人類生成的數據並不是訓練AI所必需的絕對要素,人類生成的數據之所以有用,是因爲它們包含了自然變化、錯誤和不太可能的結果。「所以人類肯定會提供幫助,但同時也不意味着人類數據是一個重大要求。」

原文鏈接

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利