🎉 618領先一步,提前解鎖六月AI精選股!年中特惠

信達證券:OpenAI推出最新模型GPT-4o 谷歌(GOOGL.US)推出多款新模型

發布 2024-5-17 下午03:28
信達證券:OpenAI推出最新模型GPT-4o 谷歌(GOOGL.US)推出多款新模型
GOOGL
-
GOOG
-

智通財經APP獲悉,北京時間5月14日凌晨,OpenAI 發佈了最新模型 GPT-4o;次日凌晨,Google I/O 開發者大會正式開幕,推出多款新模型。信達證券認爲,根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上設置了新的高水位線;在生成式人工智能 AI 競爭中,從谷歌在本次開發者大會上發佈的內容可以看出其在 AI 領域的積澱和步伐愈發穩健深厚。

北京時間5月14日凌晨,OpenAI 發佈了最新模型 GPT-4o,GPT-4o(“o”代表“omni”)接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出。GPT-4o可以在短至 232 毫秒的時間內響應音頻輸入,平均爲 320 毫秒,與人類的響應時間相似。它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯著提高。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

GPT-4o 的文本和圖像功能 5 月 14 日已經開始在 ChatGPT 中推出。OpenAI正在免費套餐中提供 GPT-4o,並向 Plus 用戶提供高達 5 倍的消息限制,未來幾周將在 ChatGPT Plus 中推出新版語音模式 GPT-4o 的 alpha 版。開發人員現在還可以在 API 中訪問 GPT-4o 作爲文本和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。OpenAI 計劃在未來幾周內在 API 中向一小部分值得信賴的合作伙伴推出對GPT-4o 新音頻和視頻功能的支持。

在 OpenAI 發佈會上,團隊展示了 GPT-4o 的多個功能。包括實時語音交流能力,幾乎無延遲,達到真人聊天的水平;可以識別用戶的語音情緒,語音有情感;可以使用不同語言(英語、意大利語)和多人同時交互;在語音的同時可以與視頻實時交互;實時交流,協助閱讀代碼,指導編程;實時視頻聊天, 並識別情緒等。

北京時間5月15日凌晨,Google I/O 開發者大會正式開幕。公司更新了Gemini1.5Pro,引入了 1.5Flash 較小型號的 Gemini 版本,同時也增加了兩個新的 Gemma 模型。Gemini 1.5 Pro:普通版本配備了 100 萬 token 上下文窗口,而 Gemini 1.5 Pro 將在 Google AI Studio 或適用於 Google Cloud 客戶的 Vertex AI 中的候補名單中擁有 200 萬個代幣上下文窗口。在智能代理領域,谷歌展示了其最新的人工智能代理 Google Astra 項目,可與用戶實現多模態交互。

多模態領域,谷歌推出全新視頻生成模型 Veo,可生成各種電影和視覺風格的高質量 1080p 分辨率視頻,時間可以超過一分鐘;升級了文生圖新模型Imagen3,對圖像細節的把控度更高;發佈了人工智能音樂生成模型 Lyria。以及在 AI 搜索功能、照片問詢功能均實現了一定程度的升級迭代。

OpenAI 打造全新多模態融合、高擬人情感、實時低延遲交互的“個人超級 AI 語音助手”,推出 GPT-4o 全新旗艦人工智能模型。根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上設置了新的高水位線。GPT-4o 能夠接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出,輸入輸出均由同一神經網絡處理。同時,在用戶情緒感知和語義理解上,GPT-4o 也展現得較爲出色,用戶可以在對話中隨時打斷,並且可以根據用戶需要改變語音語調來滿足用戶的情緒變化,有望逐漸成爲個人用戶在終端設備上的具備強擬人化、可交互性高、高智商、高情商的私人助理管家。

免費提供給所有用戶使用,付費用戶享受 5 倍調用額度,大模型本身的技術迭代帶來的成本降低有望使個人或企業用戶深度受益。每週都有超過一億人使用 ChatGPT。OpenAI 將在未來幾周內開始向 ChatGPT免費用戶推出更多智能和高級工具。使用 GPT-4o 時,ChatGPT 免費用戶現在可以訪問以下功能:體驗 GPT-4 大模型的回答;獲取來自模型和互聯網的回覆;分析數據並創建圖表;聊聊用戶拍攝的圖片;上傳文件並提供幫助、總結、寫作或分析;發現並使用 GPT 和 GPT 商店;使用 Memory 打造更有幫助的體驗。

OpenAI 推出新的桌面應用程序,簡化用戶的工作流程。對於免費和付費用戶,OpenAI 推出了適用於 macOS 的新 ChatGPT 桌面應用程序,該應用程序旨在無縫集成到用戶在計算機上執行的任何操作。通過簡單的鍵盤快捷鍵(Option+Space),用戶既可向 ChatGPT 提問,還可以直接在應用程序中截取屏幕截圖並進行討論。同時,用戶可以直接從計算機與 ChatGPT 進行語音對話,目前暫時提供 ChatGPT 發佈時提供的語音模式,新的音頻和視頻功能將在未來推出。同時,從發佈會當日開始,OpenAI 將向 Plus 用戶推出適配於 macOS 的應用程序,並將在未來幾周內更廣泛地提供該應用程序,Windows 版本計劃在今年晚些時候推出。應用程序簡化了 ChatGPT 的界面外觀,整體 UI 設計更加友好具備交互性。

北京時間 5 月 15 日凌晨,Google I/O 開發者大會正式開幕,在生成式人工智能 AI 競爭中,從谷歌在本次開發者大會上發佈的內容可以看出其在 AI 領域的積澱和步伐愈發穩健深厚。2023 年 12 月,谷歌發佈了 Gemini1.0;2024年 2 月,谷歌發佈了 Gemini1.5 Pro,是第一個具有 100 萬 tokens 的模型,同時也推出了輕量級的開源模型 Gemma。在本次谷歌開發者大會上,公司更新了 Gemini1.5Pro,引入了 1.5Flash 較小型號的 Gemini 版本,同時也增加了兩個新的 Gemma 模型。

Gemini 1.5 Pro:普通版本配備了 100 萬 token 上下文窗口,而 Gemini 1.5 Pro 將在 Google AI Studio 或適用於 Google Cloud 客戶的 Vertex AI 中的候補名單中擁有 200 萬個代幣上下文窗口。Gemini 1.5Flash 針對較窄或高頻的任務進行了優化,達到較快的響應時間速度,更具備成本效益,同時上下文窗口也突破到了 100 萬 token。

谷歌即將於 2024 年 6 月推出 Gemma2 大模型,模型參數量提高至 270 億,其性能優於一些尺寸超過其兩倍的模型,並且可以在 GPU 或 Vertex AI 中的單個 TPU 主機上高效運行。

人工智能代理 Google Astra 項目:作爲智能體,需要像人類一樣理解和響應複雜且動態的世界,並吸收並記住所看到和聽到的內容,以瞭解上下文並採取行動。它還需要主動、可教和個性化,以便用戶可以自然地與它交談,沒有滯後或延遲。2024 年穀歌開發者大會上,DeepMind 團隊展示了多模態理解和實時對話的能力,希望構建一個在日常生活中有用的通用代理。和OpenAI 剛發佈的 AI 語音助手 GPT-4o 相比,Astra 在相應的延時、語氣情緒的感知以及可打斷性來看還有提升空間。

谷歌推出全新視頻生成模型 Veo。可生成各種電影和視覺風格的高質量1080p 分辨率視頻,時間可以超過一分鐘,在視頻細節上更能清晰把握創作者的意圖。提供了較強的創意控制水平,並理解“延時拍攝”或“風景空中拍攝”等電影術語。Veo 創建一致且連貫的鏡頭,因此人物、動物和物體在整個鏡頭中移動逼真。Veo 以谷歌多年的生成視頻模型工作爲基礎,包括生成查詢網絡(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere — 結合架構、縮放法則和其他新穎技術來提高質量和輸出分辨率。谷歌升級了文生圖新模型 Imagen3。Imagen3 在圖像生成的細節、光照等方面表現較優,和之前的文生圖模型相比,其分散注意力的視覺僞影要少很多,Imagen3 可以更好理解自然語言、提示背後的意圖並融合較長提示中的微小細節,同時更好控制圖像一致性。

谷歌發佈了人工智能音樂生成模型 Lyria。與 YouTub 以及一些出色的音樂家、歌曲作者和製作人合作去開發一套名爲 Music AI Sandbox 的音樂 AI 工具。這些工具旨在爲創造力開闢一個新的遊樂場,讓人們從頭開始創建新的樂器部分,以新的方式改變聲音等。

同時,谷歌針對谷歌搜索、Ask Photo 等功能均做出了一定程度的升級更新。從發佈會後開始,谷歌將在美國向用戶推出經過全面改造的“AI 概覽”的搜索體驗,即在搜索框下面單獨展現出 AI Overview 的內容來給用戶更好的服務響應,滿足用戶提出新類型的問題、更長、更復雜的查詢,甚至使用照片進行搜索,並獲得網絡所提供的最佳信息。以及將在 24 年夏天推出“詢問照片”功能,滿足用戶搜索照片信息的需求。

建議關注:1)AI 陪伴+IP:湯姆貓、上海電影、奧飛娛樂、華策影視、中文在線;2)AI+搜索:崑崙萬維、三六零等;3)AI+影視:華策影視、慈文傳媒、上海電影;4)AI+IP(涉及版權、算料等):芒果超媒、中廣天擇、華數傳媒、中文在線等;5)AI+出版/教育:南方傳媒、皖新傳媒等;6)AI+遊戲:巨人網絡、愷英網絡、神州泰嶽、三七互娛、姚記科技、盛天網絡等;7)特別提示:微軟系/語音助手類標的,紫天科技、易點雲、萬興科技、視覺中國、科大訊飛、商湯(港股)等。

風險因素:生成式人工智能模型進展迭代不及預期、AI 應用進展不及預期

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利