智通財經APP獲悉,週一,OpenAI發佈了一款名爲GPT-4o的新旗艦生成式人工智能模型,並計劃在未來幾周內逐步在其各種產品中推出。OpenAI的首席技術官Muri Murati介紹說,GPT-4o在保持GPT-4級別的智能的同時,對文本、視覺和音頻功能進行了改進,所有用戶均可免費使用,而付費用戶的容量限制是免費用戶的五倍。
Murati在OpenAI辦公室的一次主題演講中提到,GPT-4o跨越了語音、文本和視覺的多個領域。OpenAI將推出桌面版ChatGPT及全新用戶界面。
GPT-4是OpenAI之前的領先模型,它集成了圖像和文本功能,能夠分析圖像和文本,完成從提取圖像中的文本到描述圖像內容等任務。而GPT-4o在此基礎上增加了語音功能。
這一改進帶來了哪些新功能?包括但不限於以下幾點:
GPT-4o顯著提升了ChatGPT的使用體驗—ChatGPT是OpenAI的人工智能聊天機器人。雖然ChatGPT長期支持語音模式,將ChatGPT 的文本轉爲語音,但GPT-4o在此基礎上進行了優化,使用戶能夠更像與助手互動一樣自然地使用ChatGPT。
例如,用戶現在可以在ChatGPT回答問題時中斷它,而OpenAI表示,新模型能夠提供“實時”響應,甚至能夠捕捉到用戶聲音中的情感,並以不同的情感風格生成語音。
GPT-4o還增強了ChatGPT的視覺功能。通過照片或屏幕截圖,ChatGPT現在可以迅速回答相關問題,從“這段代碼是做什麼用的”到“這個人穿的是什麼品牌的襯衫”。
從即日起,GPT-4o將在ChatGPT的免費版本中提供,而OpenAI的高級版本ChatGPT Plus和Team用戶則可享有“五倍消息限制”的優勢,企業選項也將“即將推出”(當用戶達到使用閾值時,系統將自動轉爲使用 GPT-3.5)。OpenAI表示,計劃在下月左右爲Plus用戶推出改良後的GPT-4o語音體驗。
OpenAI還表示,GPT-4o的多語言功能得到了增強,在50種不同的語言中表現更佳。在OpenAI的API中,GPT-4o的處理速度是GPT-4(特別是 GPT-4 Turbo)的兩倍,價格則是GPT-4 Turbo的一半,同時擁有更高的速率限制。
用戶只需發出簡單的“嘿,ChatGPT”語音提示,即可獲得代理的口語迴應。然後,用戶可以用口語提交查詢,並在必要時附上文字、音頻或視覺效果——後者可包括照片、手機攝像頭的實時畫面或代理能“看到”的任何其他內容。
在音頻輸入方面,人工智能的平均響應時間爲320毫秒,與人類的對話響應時間類似。
目前,GPT-4o的應用程序接口中尚未爲所有客戶提供語音功能。鑑於濫用風險,OpenAI計劃在未來幾周內首先向“一小部分可信賴的合作伙伴”推出對GPT-4o新音頻功能的支持。
其他方面,OpenAI將在網絡上發佈全新的ChatGPT UI,新的主屏幕和消息佈局“更具對話性”,同時還將發佈桌面版的ChatGPT for Mac,用戶可以通過鍵盤快捷鍵向ChatGPT提問,也可以通過打字或說話截圖並進行討論(從今天開始,Plus用戶將首先獲得訪問權限,Windows版本的應用程序將於今年晚些時候推出)。此外,ChatGPT的免費用戶現在還可以訪問GPT Store(OpenAI 基於其人工智能模型構建的第三方聊天機器人庫)。
GPT-4o的文本和圖像功能已經開始向付費的ChatGPT Plus和Team用戶推出,企業用戶也即將推出。免費用戶也將開始使用,但有使用限制。
語音版GPT-4o將“在未來幾周內”開始提供。開發人員將能夠使用GPT-4o的文本和視覺模式,並在未來幾周內向“一小部分值得信賴的合作伙伴”提供音頻和視頻功能。