近期業界傳言的“醫渡科技正研發醫療大模型”在7月3日得到了證實,醫渡科技(02158)首席技術官、首席人工智能科學家闫峻在該公司2023財年業績發布會上確認了這一消息。
闫峻表示,公司在大語言模型的訓練和面向場景的調優上早有布局,也做了很大投入。醫渡科技的“醫療智能大腦“YiduCore一直在自然語言處理領域深耕,語言模型的訓練也一直是其中很重要的組成部分。從整個技術鏈來看,大語言模型並非新鮮事物,未來的大模型訓練數據規模更大,並且要針對一些特定場景進行調優,這樣才能解決很多的實際問題。
大語言模型的訓練和調優對數據、算力和算法以及工程都有着極高的要求。在數據層面,醫渡科技正在注入更多的專業知識型數據。相比之前,公司對這些知識型數據的表達方式做了很多精細化加工與處理,並使用了課程學習等手段。在計算資源上,公司也重點增強了算力,用以支持從之前幾億參數,到幾十億參數乃至幾百億參數的模型。
闫峻還介紹到,醫療健康垂直領域與開放領域有着很大的不同。對于醫療健康垂直領域而言,其下遊任務相對比較明確,因此參數規模和要解決下遊任務上存在一個性價比的平衡點。
在以傳統方法爲基礎的模型算法和工程經驗上,醫渡科技已有大量積累。在模型規模放大的過程中,公司還在持續針對下遊任務調優投入大量精力。
闫峻強調,由于醫療健康領域的嚴肅性,在這一垂直領域的大模型訓練過程中,對于專業性和信息安全等多方面要求都非常高,需要從業者心懷敬畏並以謹慎的態度去提供服務。
比如,在衆多開放領域遇到的問題,機器提供的答案能夠達到70-80分便可達到應用水平;但對于醫療健康領域而言,下遊任務要求足夠的專業性和模型的精准度,而且要同時確保信息安全,做到95分甚至更高才能達到真正的應用水平。因此,需要更多的時間補充知識及測試調優。
智通財經APP了解到,醫渡科技將于近期在適當的時間針對部分目標場景推出小範圍邀請測試,所涉及場景將包括內部生産效率提升,面向當前業務産品的智能化升級,以及提供對患者的新服務能力,也不排除對行業中的科研及商業機構開放提供專業醫療垂直領域大模型服務的可能。