格隆匯3月8日丨據澎湃,谷歌和柏林工業大學的團隊重磅推出了史上最大的視覺語言模型——PaLM-E,參數量高達5620億(GPT-3的參數量為1750億)。作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執行各種複雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現實世界場景中的更多應用,例如家庭自動化或工業機器人。他們希望PaLM-E能夠激發更多關於多模態推理和具身AI的研究。
格隆匯3月8日丨據澎湃,谷歌和柏林工業大學的團隊重磅推出了史上最大的視覺語言模型——PaLM-E,參數量高達5620億(GPT-3的參數量為1750億)。作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執行各種複雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現實世界場景中的更多應用,例如家庭自動化或工業機器人。他們希望PaLM-E能夠激發更多關於多模態推理和具身AI的研究。