FX168財經報社(北美)訊 週二(5月16日),谷歌公司最新宣佈的新的大型語言模型使用了幾乎比其2022年的前身多近五倍的訓練數據,使其能夠執行更高級的編碼、數學和創造性寫作任務。
谷歌的新通用大型語言模型(LLM)PaLM 2是在3.6萬億個標記上進行訓練的。標記是單詞字符串,對於訓練語言模型來說是一個重要的構建塊,因爲它們教會模型預測序列中下一個出現的單詞。
谷歌此前發佈的PaLM(Pathways Language Model)的上一個版本於2022年發佈,訓練數據包含了7800億個標記。
儘管谷歌一直急於展示其人工智能技術的強大能力,並將其嵌入到搜索、電子郵件、文字處理和電子表格等工具中,但該公司不願公開其訓練數據的規模或其他細節。微軟支持的OpenAI也對其最新的大型語言模型GPT-4的具體細節保密。
這種保密的原因,據這些公司表示,是因爲業務的競爭性質。谷歌和OpenAI都在爭相吸引那些可能希望使用對話式聊天機器人而不是傳統搜索引擎來搜索信息的用戶。由於競爭激烈,它們選擇保密訓練數據的具體規模和其他細節。
隨着人工智能競賽的升溫,研究界對於更大的透明度提出了更高的要求。
在發佈PaLM 2之後,谷歌表示這個新模型比以前的大型語言模型更小,這一點非常重要,因爲它意味着谷歌的技術在完成更復雜的任務時變得更加高效。根據內部文件,PaLM 2是在3400億個參數上進行訓練的,這表明該模型的複雜性。而最初的PaLM則是在5400億個參數上進行訓練的。
谷歌在關於PaLM 2的博客文章中提到,該模型使用了一種名爲「compute-optimal scaling」的「新技術」。這使得LLM在整體上更加高效,並具有更好的性能,包括更快的推理速度、更少的參數需求以及更低的服務成本。
在宣佈PaLM 2時,谷歌確認了該模型在100種語言上進行訓練,並執行廣泛的任務。它已經被用於推動25個功能和產品,包括谷歌的實驗性聊天機器人Bard。它有四個不同的規模,從最小到最大分別是Gecko、Otter、Bison和Unicorn。
根據公開披露的信息,PaLM 2比現有的任何模型都更強大。Facebook的名爲LLaMA的大型語言模型(LLM)在2022年2月宣佈,其訓練數據包含了1.4萬億個標記。OpenAI最後一次公開了ChatGPT的訓練規模是在GPT-3時期,當時該公司表示其訓練數據包含了3000億個標記。OpenAI於2022年3月發佈了GPT-4,並表示它在許多專業測試中表現出「與人類水平相當」的性能。
Google在兩年前推出的對話型大型語言模型LaMDA以及今年2月與Bard一起宣傳的LaMDA都是基於訓練了1.5萬億個標記的數據。
隨着新的人工智能應用迅速進入主流,圍繞這一技術的爭議也變得更加激烈。
谷歌研究科學家El Mahdi El Mhamdi於今年2月因公司缺乏透明度而辭職。上週二,OpenAI的首席執行官Sam Altman在參議院司法委員會隱私和技術小組的聽證會上作證,並贊同立法者的觀點,認爲需要建立一個新的系統來處理人工智能。
Altman表示:「對於一種非常新的技術,我們需要一個新的框架。」他還說:「當然,像我們這樣的公司對於我們推出的工具承擔着很大的責任。」