#作者簡介#
井玉欣畢業於北京大學資訊科學技術學院,獲博士學位,研究方向包括計算機軟體與理論、邏輯推理等,目前就職於宜信技術研發中心,從事人工智慧、機器學習、自然語言處理以及知識工程等方面的研究。
業務背景
宜信公司於2023年成立於北京,經過12年的發展,目前圍繞著普惠和財富兩大業務板塊,陸續推出了許多相關產品,如宜人貸、宜人財富、致誠信用、博城保險等等。
實際上在這些產品的背後,ai技術已廣泛地應用其相關的各條業務線中。
從宜信所處的金融領域的各個子領域來劃分,可以分為智慧型交易、智慧型信貸、金融資訊、金融安全、個性化服務這五個方面,每個方面都有相關人工技術的輔助。
例如智慧型交易領域,有智慧型投研、量化分析、自動/輔助交易等技術;智慧型信貸領域,有能夠進行身份識別、使用者畫像以及智慧型風控等相關的人工智慧產品;金融資訊領域,我們會進行知識工程、圖譜分析、智慧型問答等;金融安全領域,要進行反欺詐分析;而個性化服務領域就更廣泛了,我們有行為分析、智慧型營銷、推薦與匹配以及智慧型理財顧問等等一系列比較成熟的ai產品。
讓我們繼續向下**,在這些ai產品的背後,會發現都有一些nlp(natural language processing, 自然語言處理)技術的影子。比如在智慧型交易領域,我們需要理解相當多的投研報告,這裡就會用到報告理解方面的nlp技術;智慧型信貸領域,可能需要進行風控報告的生成和分析,也要用到相關的nlp技術;知識工程領域,要對金融資訊進行知識提取,或者為了構建知識圖譜進行關係提取、事件提取等;智慧型營銷和智慧型理財顧問中,則需要智慧型聊天以及話術提取的處理技術。
可以說nlp技術貫穿了各個領域的ai產品,其直接原因就是因為我們的業務中存在著大量的自然語言資料,如電銷通話資料、客戶分析小結、客服溝通內容、內部交流資訊以及其他各種文字報告等等,這些資料都是使用自然語言來進行儲存的;而且用自然語言文字儲存這些資料,還有著其他形式資料無法比擬的一些優點,如圖1所示,自然語言資料**豐富,資訊表述多種多樣,保留資訊完整,並且符合使用者習慣等等。
圖1 自然語言的特點
但是,我們需要注意到相較於這些優點,自然語言資料也有著資料非結構化不易處理、存在可能的歧義性、語法不規則性、未知語言現象等缺點。另外,結合宜信所處的業務領域,這些自然語言又有一些獨特的特點:更強的詞彙專業性、更廣泛的資料**、多樣的資料形式(錄音資料,文字對話資料以及短/長文字的報告、小結等)、較大的資料量以及分布的不均衡性。
這些缺點使得自然語言資料並不容易處理,nlp技術實施起來難度也不小,但是為什麼自然語言資料仍然越來越得到關注,nlp技術的實施也越來越廣泛了呢?
實際上,近幾年來,各企業、組織開始在業務中也越來越關注大量非結構化資料中蘊含的**值資訊。我們知道,結構化資料比較好處理,但是經過多年的發展,能夠從中挖掘出的資訊越來越有限;而我們平時接觸到的非結構化資料,其數量級要比結構化資料多出好幾倍,裡面蘊含著非常多的**值資訊。
此外,自然語言處理給我們帶來了新的會話互動方式,更確切的說,基於自然語言理解和自然語言生成所形成的對話式使用者互動更加自然、高效、吸引人,更加符合使用者習慣,這也就是我們所說的conversational ui,新的互動方式越來越多的應用在各個領域。比如我們接觸到的智慧型音箱小愛同學,她的表現就非常驚豔。
所以,越來越多的業務開始關注非結構化資料和自然語言資料這些高數量級的有價值資訊,它具有的一些特點,提供的一些互動方式,帶來了更多擴充套件的形式,這就導致了自然語言資料越來越重要,nlp技術越來越必要。
我們給nlp技術做乙個簡單的定位,即nlp技術承擔了領域內自然語言資料的分類、提取、轉換、生成任務,是業務領域內重要、基礎的技術服務之一。
nlp技術在宜信
宜信擁有豐富的業務和產品線,這些產品線產生了大量的人工智慧賦能需求。演算法團隊成立以來,一直面臨著不小的專案壓力。在整個專案的驅動過程中,團隊也逐漸得到成長,結合金融領域的相關業務知識,磨練出從規則分析到統計學演算法,再到更加複雜的神經網路,以及nlp領域專業技術等一系列技能。
圖2 相關演算法技術棧
具體來講,我們從可以承擔基本的處理任務(利用一些現有的規則分析、基本演算法模型所進行的詞性分析、句法分析)發展到可以利用相對複雜的神經網路模型對外提供文字分類、文字聚類、資訊抽取等等一些模型服務,再到目前實施的智慧型聊天機械人(chatbot)、使用者畫像、知識工程等高階場景,技術也隨之轉向了transformer、gan、強化學習、深度學習網路等能力越來越強、結構越來越複雜的模型。這一過程可以看出來技術在不斷的進步。
除了技術在不斷的發展以外,我們也積攢了一批有價值的語料。在業務環節方面,我們積攢了如電銷資料、客服資料、陪訪資料、催收資料等語料;在業務領域方面,我們積攢了借貸(車、房、消費),理財(投資、保險、生活、傳承、公益)等方面的語料;而在資料形式方面,我們收集了對話類(**、文字溝通資訊)、文章類(小結、新聞、報告)形式的語料。
這是一批比較有價值的語料資訊,最終形成了公司內部的專業語料資料,包括公司的產品清單、業務術語表、業務實體表乃至財富領域的財富產品知識圖譜等等。我們最終的目的是經過一定的擴充、抽象和加工之後,希望能夠形成金融領域的、**值的、專業資料集,來對外進行賦能輸出。比如我們可以輸出金融術語表、金融術語同義詞林、金融領域相關本體以及各個子領域的知識庫等。
此外,我們在服務模式上也有乙個演化的過程。早期我們是以專案為驅動的服務模式,這個過程中存在著一些普遍的痛點:
那麼如何解決這些痛點呢?反思過後,我們走出了重要的一步,即服務的平台化。通過構建乙個統一的nlp模型平台,對外提供乙個統一的nlp服務,其優點是:
通過平台化服務,使我們的工作擺脫了原有的粗放式服務模式,提高了ai團隊的輸出能力。
圖3 服務的平台化
圖3為我們平台的邏輯功能檢視,自底向上分為資源層、預處理層、模型層及場景層。資源層主要包括一系列的語料、標籤、預訓練模型等資源;預處理層包含一些常用的nlp技術,如分詞分句、詞性分析、句法分析、主題分析、命名實體識別等;模型層則包括一些可以對外提供服務的演算法模型,例如文字的聚類、分類、生成、複述等模型,情感分析模型等;最高的場景層則針對一些高階的、可以形成一定閉環能力的複雜場景進行解決方案的構建,例如對於智慧型機械人、使用者畫像等複雜場景,我們會形成乙個包裝好的解決方案,提供給使用者使用。
圖4 nlp平台架構
簡析敏捷在分布式團隊中的實踐
簡而言之,敏捷是一種新的軟體開發的思想,通過迭代 結對程式設計 測試驅動等實踐逐步完善對軟體的開發,最終形成穩定的系統。與傳統的軟體開發相比,敏捷強調人與人之間的溝通,而不是通過文件。這兒可以用kent beck martin fowler等16位業內權威的軟體人士在幾年前所做的乙個敏捷宣言來解釋 ...
簡析敏捷在分布式團隊中的實踐
簡而言之,敏捷是一種新的軟體開發的思想,通過迭代 結對程式設計 測試驅動等實踐逐步完善對軟體的開發,最終形成穩定的系統。與傳統的軟體開發相比,敏捷強調人與人之間的溝通,而不是通過文件。這兒可以用kent beck martin fowler等16位業內權威的軟體人士在幾年前所做的乙個敏捷宣言來解釋 ...
HBase在大搜車金融業務中的應用實踐
最近幾年二手車業務發展非常迅猛,大搜車一直做b端的業務,我們在b端裡面4s店的市場占有率已經達到90 以上。今年年初我們覺得時機成熟了,我們就做了彈個車,它是比較典型的汽車金融。無論是車商業務,還是金融業務,都對我們資料採集 資料整理 資料使用提出了非常多的挑戰。而hbase效能比較穩定,也可以水平...