自創立以來,嘉銀科技(JFIN.US)始終將技術創新視爲企業發展的重要引擎,不斷探索大數據和人工智能技術在不同業務場景中的應用,力求給客戶和合作夥伴帶來更優質的產品和服務。爲進一步賦能決策科學和智慧運營,近日嘉銀科技推出自研“識瀾”音頻數據挖掘算法和“明經”文本數據挖掘算法,全面釋放非結構化數據價值,標誌着公司科研能力和大數據實力再上新臺階。
基於多年的業務運營和數據積累,嘉銀科技沉澱了豐富的數據“礦藏”。由於非結構化的特性,如何能從中提取有價值的信息轉化爲結構化數據,以進一步提高決策質量、提升客戶體驗,並最終推動業務增長,成爲企業思考的重要課題。
經過探索和實踐,嘉銀成功自研了針對音頻數據的“識瀾”算法和針對文本數據的“明經”算法,根據不同業務場景,高效地從音頻和文本數據中提取有價值的結構化數據,爲下游的數據分析和建模提供更多決策支持。這兩項最新成果展示了嘉銀科技在科技領域的積極佈局和對未來技術發展的深刻洞察,標誌着數據驅動下,音頻和文本數據深度理解和利用迎來新篇章。
音頻數據挖掘算法命名爲“識瀾”,靈感源於聲音猶如水紋波動,該算法能夠從聲音的波紋中識別出說話人情緒上的細微變化。嘉銀決策科學中心通過利用數字信號處理(DSP)工具將音頻文件轉化爲信號序列,再利用傅里葉變化分別從時域和頻域的視角來提取說話人的聲學特徵,比如頻譜質心、過零率、均方根能量等,這些特徵旨在挖掘語音、語調、語速中蘊含的信息。由於人在不同的情緒狀態下說話的方式會存在很大的差別,比如情緒激動的時候會語速加快、音調尖銳、提高音量等等,通過分析這些信息可以更完整地瞭解說話人在音頻發生時的狀態屬性。
“明經”是古代科舉考試的一種,旨在考察學生對儒學典籍的理解和運用能力。嘉銀以此來命名文本數據挖掘算法,是希望它能夠“學以致用”,從海量的文本里找到對業務有幫助的信息。目前,嘉銀決策科學中心團隊對傳統的機器學習文本挖掘思路進行升級,讓模型可以根據不同的業務場景自動化搜索有價值的關鍵詞,並從近義詞和同現詞的角度對關鍵詞庫進行擴充,起到多路召回的作用。除此以外,公司還運用大語言模型(LLM)對命中文本的語義信息做進一步理解,來提升識別的準確性。這種傳統機器學習和大語言模型相結合的方式,不僅讓語義標籤召回率和準確率實現同步提升,也助力公司業務降本增效。
目前,這兩種數據挖掘算法已經成功運用於數據建模等場景,嘉銀科技模型開發專家夏春秋表示,“結構化數據與非結構化數據起到很好互補作用,目前在多個場景下,聲學和語義信息的融入都能給模型帶來預測性能和穩定性能的提升。這充分證明了我們對非結構化數據的挖掘探索是有業務價值的。”
最新的信貸服務類模型報告顯示,這兩種非結構化數據挖掘算法開發出的變量佔總入模變量的比例高達27%,對模型的預測起到強有力的支持作用。使用文本和音頻變量的新模型預測效果相對於老模型也有大幅度的提升,在尾部20%的分位數閾值下,新模型能夠提升60%以上的捕獲率,減少40%風險事件的發生。新模型的運用不僅降低了運營成本,更重要的是顯著提升客戶滿意度。
未來,嘉銀科技將繼續秉持“科技賦能服務革新”這一信念,不斷突破技術邊界,優化服務流程,與客戶共同攜手,構建高質量服務品質之路。在這條道路上,嘉銀也將始終堅持以客戶需求爲導向,以技術創新爲動力,不斷提升服務的專業化、個性化水平。