智通財經APP獲悉,中信建投證券發佈研報稱,OpenAI發佈新的具有深度思考能力的o1推理模型,模型在複雜問題上花更多時間進行思考而非直接回應,具有改善和調整策略的能力,在科學、代碼和數學等複雜問題上表現出色。OpenAI o1融合思維樹和強化學習,實現思維模式的深度探索。Open o1在模型推理側同樣滿足scaling law,即模型推理時間越久模型處理複雜問題能力愈強,通過不斷的思維樹檢索和反覆自我博弈,o1呈現出類人的邏輯思維潛力。由於推理過程的反覆博弈,新架構下推理側算力消耗將大幅增加。
OpenAI o1具備深度思考能力,在複雜問題上表現出色。從ChatGPT爆火整個社交網絡後,大模型行業進入如火如荼的發展階段,模型的基礎能力得到顯著提升,然而Transformer模型由於其架構限制存在一定的能力邊界難以逾越,涉及到複雜數理邏輯推理時表現仍然有待提升。提示詞工程應運而生,在合理的提示詞設計下,大模型推理能力得到顯著提升。OpenAI發佈新的具有深度思考能力的o1推理模型,模型在複雜問題上花更多時間進行思考而非直接回應,具有改善和調整策略的能力,在科學、代碼和數學等複雜問題上表現出色。
OpenAI o1融合思維樹和強化學習,實現思維模式的深度探索。思維鏈和思維樹通過中間推理步驟幫助大模型實現了複雜的推理能力,大語言模型能夠自己對嚴謹推理過程的中間思維進行評估。強化學習是人工智能重要的研究領域,智能體在與環境的反覆交互過程中持續學習,不斷最大化其獎勵。OpenAI o1深度融合思維樹和強化學習,實現思維樹的自我訓練,同時通過廣度搜索和深度搜索不斷優化其思維樹結構,進而實現思維模式的深度探索。
推理側scaling law同樣存在,大模型算力需求逐步遷移至推理側。過去在訓練側證實了scaling law的存在,即訓練越多模型愈發聰明。Open o1在模型推理側同時發現了scaling law,即模型推理時間越久模型處理複雜問題能力愈強,推理側的scaling law同樣展現了巨大的潛力,通過不斷的思維樹檢索和反覆自我博弈,o1呈現出類人的邏輯思維潛力。由於在推理過程的反覆博弈,模型當前推理算力需求大幅提升,大模型整體算力消耗從訓練側逐漸遷移至推理側,對整個算力需求起到長期的重要支撐。