💎 挖掘低估值寶藏股立即開始

中信證券:OpenAI推出GPT新模型 端到端加速邊緣側落地

發布 2024-5-15 上午08:46
© Reuters.  中信證券:OpenAI推出GPT新模型 端到端加速邊緣側落地

智通財經APP獲悉,中信證券發佈研究報告稱,OpenAI於北京時間2024年5月14日推出了其最新旗艦AI模型GPT-4o,在保持與GPT-4同等智能水平的基礎上,實現了文本、圖像和語音處理的全面提升,尤其是引入了業界領先的實時語音功能,同時OpenAI宣佈將免費開放GPT-4o給所有用戶,plus用戶僅會優先體驗部分功能以及享受每天更高的使用限額。GPT-4o作爲一個原生多模態端到端模型,所有輸入輸出均由同一神經網絡處理,同時整體API價格相比於前代也下降了50%,這爲將大型語言模型部署到邊緣設備提供了可行的技術路徑。

該行認爲GPT-4o的推出預示着交互方式的變革,實時語音輸入與反饋將極大提升用戶交互體驗。該行看好GPT-4o代表的多模態交互革命,建議重點關注未來1年內可能落地的端側AI的相關機會,並持續關注應用在教育、音視頻社交媒體等領域的相關落地情況。

中信證券主要觀點如下:

事件背景:

北京時間5月14日,OpenAI宣佈推出其最新旗艦AI模型GPT-4o,該模型預計將在未來幾周逐步融入OpenAI的全線產品。據OpenAI首席技術官穆裏·穆拉蒂介紹,GPT-4o在保持與GPT-4同等智能水平的同時,在文本與圖像處理上實現了顯著提升,並新引入了實時語音功能。測試數據表明,GPT-4o已超越谷歌Gemini等競爭對手,成爲市場上領先的多模態模型。雖然GPT-4o將向ChatGPT的免費用戶提供,但使用上會存在一定限制。Plus用戶將享受比免費用戶多5倍的消息限制,而Team和Enterprise用戶則享有更高限制。

模型概況:基礎性能全方位提升,語音TTS成爲最大亮點。

OpenAI研究員William Fedus在發佈會中透露,GPT-4o即是此前在大模型競技場進行A/B測試的模型之一,其elo分數較4月9日的GPT-4 turbo版本提升了4.8%,在語音生成與轉換方面表現尤爲出色。GPT-4o對音頻輸入的響應時間縮短至232毫秒,平均爲320毫秒,接近人類的反應速度。該模型能夠識別並響應用戶的語調和語速,並在多人對話中準確區分不同發言人的語氣風格及情感。在英文文本和代碼處理上,GPT-4o與GPT-4 Turbo表現相當,但在非英語文本處理上取得了明顯進步。此外,GPT-4o運行效率更高,使用成本較之前API降低了50%,在視覺和音頻理解方面展現了更優越的性能。

端到端原生多模態:跨文本、視覺和音頻端到端訓練的模型,所有輸入和輸出由同一個神經網絡處理。

GPT-4o是一個原生多模態融合模型,通過端到端訓練,能夠處理文本、音頻和圖像的任意組合輸入,並生成相應的多模態輸出。在語音翻譯任務中,GPT-4o的表現超過了OpenAI的專業語音模型Whisper-V3以及谷歌和Meta的語音模型。對比此前ChatGPT處理語音信息的流程:首先將通過一個模型將語音轉爲文本,然後由GPT-4處理並生成文本,最後再由另一個模型將文本生成爲語音,GPT-4o是一個完全重新訓練的端到端模型,所有輸入輸出均由同一神經網絡處理,模型可能使用了一種基於神經網絡的流式編碼技術,傳輸運動變化的Token。如果這個可能性成立,OpenAI後續可以在邊緣設備上部署一個小型神經網絡,並通過評定內容長短來爲邊緣端分配算力,這爲後續可能的邊緣端部署提供了切實可行技術手段。

交互革命:交互方式改變爲端側部署提供新的想象空間。

GPT-4o的更新預示着語言模型交互方式的變革,實時語音輸入與反饋將極大提升用戶交互體驗。此前大模型的端側部署有兩個較大的問題:1)端側交互模式受限,大多數端側用戶並不能接受一個需要打字輸入的交互模式,而三段式的語音大模型延遲較高。2)端側成本較高,在成本上無法支持頻繁的端側調用。而與以往的語音模型相比,GPT-4o真正解決了實時語音延遲問題,使得高性能大語言模型的端側部署成爲可能。同時在成本方面,GPT-4o也繼續優化API價格,相比於前代繼續降低50%,流式傳輸的神經網絡也爲更進一步控制成本提供了可能。此外,OpenAI已宣佈,Plus用戶將可立即在MacOS桌面端使用GPT-4o,而Windows和手機端的支持將在年內後續推出。

風險因素:

AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;私有數據相關的政策監管風險;全球宏觀經濟復甦不及預期風險;宏觀經濟波動導致歐美企業IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業數據泄露、信息安全風險;行業競爭持續加劇風險等。

投資策略:

OpenAI推出GPT-4o印證了我們年初的判斷,即OpenAI在2024年將重點發展易於商業化落地的多模態能力。GPT-4o的測試評分證明了端到端模型的商業潛力,我們認爲這是實現商業化的最優路徑。鑑於GPT-4o在語音轉換和圖片模態融合方面的能力,我們預計OpenAI將在年底前推出更多相關功能,並適配端側AI。GPT-4o在智能度、延遲性和交互便捷度方面均優於Siri,其端到端設計保證了任務切換的一致性。當前挑戰在於模型的進一步縮小以適應端側硬件性能,我們預計這一過程需要半年到一年的時間。除了端側機會,我們還建議關注教育和音視頻社交媒體領域的應用落地情況。

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利