中信證券：OpenAI推出GPT新模型端到端加速邊緣側落地

發布 2024-5-15 上午08:46

智通財經APP獲悉，中信證券發佈研究報告稱，OpenAI於北京時間2024年5月14日推出了其最新旗艦AI模型GPT-4o,在保持與GPT-4同等智能水平的基礎上，實現了文本、圖像和語音處理的全面提升，尤其是引入了業界領先的實時語音功能，同時OpenAI宣佈將免費開放GPT-4o給所有用戶，plus用戶僅會優先體驗部分功能以及享受每天更高的使用限額。GPT-4o作爲一個原生多模態端到端模型，所有輸入輸出均由同一神經網絡處理，同時整體API價格相比於前代也下降了50%，這爲將大型語言模型部署到邊緣設備提供了可行的技術路徑。

該行認爲GPT-4o的推出預示着交互方式的變革，實時語音輸入與反饋將極大提升用戶交互體驗。該行看好GPT-4o代表的多模態交互革命，建議重點關注未來1年內可能落地的端側AI的相關機會，並持續關注應用在教育、音視頻社交媒體等領域的相關落地情況。

中信證券主要觀點如下：

事件背景：

北京時間5月14日，OpenAI宣佈推出其最新旗艦AI模型GPT-4o，該模型預計將在未來幾周逐步融入OpenAI的全線產品。據OpenAI首席技術官穆裏·穆拉蒂介紹，GPT-4o在保持與GPT-4同等智能水平的同時，在文本與圖像處理上實現了顯著提升，並新引入了實時語音功能。測試數據表明，GPT-4o已超越谷歌Gemini等競爭對手，成爲市場上領先的多模態模型。雖然GPT-4o將向ChatGPT的免費用戶提供，但使用上會存在一定限制。Plus用戶將享受比免費用戶多5倍的消息限制，而Team和Enterprise用戶則享有更高限制。

模型概況：基礎性能全方位提升，語音TTS成爲最大亮點。

OpenAI研究員William Fedus在發佈會中透露，GPT-4o即是此前在大模型競技場進行A/B測試的模型之一，其elo分數較4月9日的GPT-4 turbo版本提升了4.8%，在語音生成與轉換方面表現尤爲出色。GPT-4o對音頻輸入的響應時間縮短至232毫秒，平均爲320毫秒，接近人類的反應速度。該模型能夠識別並響應用戶的語調和語速，並在多人對話中準確區分不同發言人的語氣風格及情感。在英文文本和代碼處理上，GPT-4o與GPT-4 Turbo表現相當，但在非英語文本處理上取得了明顯進步。此外，GPT-4o運行效率更高，使用成本較之前API降低了50%，在視覺和音頻理解方面展現了更優越的性能。

端到端原生多模態：跨文本、視覺和音頻端到端訓練的模型，所有輸入和輸出由同一個神經網絡處理。

GPT-4o是一個原生多模態融合模型，通過端到端訓練，能夠處理文本、音頻和圖像的任意組合輸入，並生成相應的多模態輸出。在語音翻譯任務中，GPT-4o的表現超過了OpenAI的專業語音模型Whisper-V3以及谷歌和Meta的語音模型。對比此前ChatGPT處理語音信息的流程：首先將通過一個模型將語音轉爲文本，然後由GPT-4處理並生成文本，最後再由另一個模型將文本生成爲語音，GPT-4o是一個完全重新訓練的端到端模型，所有輸入輸出均由同一神經網絡處理，模型可能使用了一種基於神經網絡的流式編碼技術，傳輸運動變化的Token。如果這個可能性成立，OpenAI後續可以在邊緣設備上部署一個小型神經網絡，並通過評定內容長短來爲邊緣端分配算力，這爲後續可能的邊緣端部署提供了切實可行技術手段。

交互革命：交互方式改變爲端側部署提供新的想象空間。

GPT-4o的更新預示着語言模型交互方式的變革，實時語音輸入與反饋將極大提升用戶交互體驗。此前大模型的端側部署有兩個較大的問題：1）端側交互模式受限，大多數端側用戶並不能接受一個需要打字輸入的交互模式，而三段式的語音大模型延遲較高。2）端側成本較高，在成本上無法支持頻繁的端側調用。而與以往的語音模型相比，GPT-4o真正解決了實時語音延遲問題，使得高性能大語言模型的端側部署成爲可能。同時在成本方面，GPT-4o也繼續優化API價格，相比於前代繼續降低50%，流式傳輸的神經網絡也爲更進一步控制成本提供了可能。此外，OpenAI已宣佈，Plus用戶將可立即在MacOS桌面端使用GPT-4o，而Windows和手機端的支持將在年內後續推出。

風險因素：

AI核心技術發展不及預期風險；科技領域政策監管持續收緊風險；私有數據相關的政策監管風險；全球宏觀經濟復甦不及預期風險；宏觀經濟波動導致歐美企業IT支出不及預期風險；AI潛在倫理、道德、用戶隱私風險；企業數據泄露、信息安全風險；行業競爭持續加劇風險等。

投資策略：

OpenAI推出GPT-4o印證了我們年初的判斷，即OpenAI在2024年將重點發展易於商業化落地的多模態能力。GPT-4o的測試評分證明了端到端模型的商業潛力，我們認爲這是實現商業化的最優路徑。鑑於GPT-4o在語音轉換和圖片模態融合方面的能力，我們預計OpenAI將在年底前推出更多相關功能，並適配端側AI。GPT-4o在智能度、延遲性和交互便捷度方面均優於Siri，其端到端設計保證了任務切換的一致性。當前挑戰在於模型的進一步縮小以適應端側硬件性能，我們預計這一過程需要半年到一年的時間。除了端側機會，我們還建議關注教育和音視頻社交媒體領域的應用落地情況。

查看所有評論 (0)0

名稱	最新	升跌率%	成交量
中芯國際	29.70	+0.34%	242.88M
小米集團－Ｗ	24.45	+0.82%	91.42M
中國平安	48.15	-1.83%	66.70M
阿里巴巴-SW	97.25	-0.56%	48.72M
中國移動	72.75	-0.68%	32.71M
美團-W	184.80	+1.99%	25.95M
騰訊控股	421.60	+0.14%	11.03M

名稱	最新	升跌率%	成交量
Silkwave	0.900	+2,263.16%	6.42M
德泰新能源集團	0.161	+1,500.00%	657.33K
中國生命集團	0.350	+652.17%	0.00
冠轈控股	1.360	+94.56%	10.18M
Fengyinhe Holdings	0.790	+75.56%	885.20K
保寶龍科技	3.00	+70.45%	46.00K
華星控股	0.028	+52.63%	59.80M

名稱	最新	升跌率%	成交量
華音國際控股	0.030	-28.57%	1.71M
NEXION TECH	0.059	-26.67%	23.86M
匯安智能	0.067	-24.10%	2.73M
Capital Realm Financial Holdings	0.220	-21.82%	11.74M
Gaoyu Finance	0.038	-21.74%	1.00M
中國創意控股	0.700	-20.45%	210.00K
中國新城鎮	0.077	-20.41%	2.48M

名稱	最新	升跌率%	成交量
阿里巴巴-SW	97.25	-0.56%	48.72M
中芯國際	29.70	+0.34%	242.88M
香港交易所	311.00	-0.26%	4.69M
騰訊控股	421.60	+0.14%	11.03M
中國平安	48.15	-1.83%	66.70M

熱門搜尋

請嘗試其他搜尋

中信證券：OpenAI推出GPT新模型端到端加速邊緣側落地

最新評論

熱門股票

請嘗試其他搜尋

中信證券：OpenAI推出GPT新模型 端到端加速邊緣側落地

最新評論

熱門股票

中信證券：OpenAI推出GPT新模型端到端加速邊緣側落地