基於文字描述的事務聚類

2022-06-14 10:15:10 字數 2393 閱讀 3305

作者|guest

編譯|vk

**|analytics vidhya

我們生活在數字技術的時代。你上次走進一家沒有數字交易的商店是什麼時候?

這些數字交易技術已經迅速成為我們日常生活的乙個關鍵部分。

不僅僅是在個人層面,這些數字技術是每個金融機構的核心。通過多種可能的選擇(如網上銀行、atm、信用卡或借記卡、upi、pos機等),在後台執行可靠的系統,支付交易或資金轉賬已經變得非常順利。

我們會為每個事務生成乙個適當的描述:

在本文中,我們將使用聚類(一種流行的機器學習演算法)討論乙個金融機構為其客戶群定製產品的真實用例。

作為一家金融機構,根據現有客戶的不同興趣,為他們提供定製化的服務,這一點總是很重要的。對於任何金融機構來說,捕捉客戶的意圖是乙個重大挑戰。

金融機構從第三方獲取資料往往會產生巨大的成本。即便如此,將乙個社交**帳戶對映到乙個獨特的客戶也變得非常困難。

那麼我們如何解決這個問題呢?

上述問題的部分解決方案可以通過使用機構提供的內部交易資料來解決。

我們可以根據事務描述訊息將客戶執行的事務分為不同的類別。

此方法可用於標記交易是否針對食品、運動、服裝、賬單付款、家居等進行。如果客戶的大部分交易都出現在特定類別中,則我們可以更好地估計他/她的偏好。

讓我們了解一下我們是如何處理這個問題陳述的,以及我們為找出解決方案而採取的關鍵步驟。

確定主題的數量

我們從所有事務開始處理,並將它們的描述訊息對映到每個客戶。首先,我們有一項重要的任務,即確定簇(或)類別(或)主題的數量。為了達到這個目標,我們使用主題模型。

主題模型是一種對文件進行無監督分類的方法,它可以在我們不確定要查詢的內容時找到自然的專案組。它主要使用潛在dirichlet分配(lda)來擬合主題模型。

它將每個文件(即事務)視為主題的混合,而每個主題則是單詞的混合。

舉個例子:預算這個詞可能會出現在電影和政治中。這種lda的基本假設是,樣本中的每乙個觀察結果都來自乙個任意未知的分布,可以用生成統計模型來解釋。

讓我們來看看這個方法來解決我們的問題。

在事務描述中,存在生成統計模型,生成交易描述中來自未知分布(即未知組或主題)的所有單詞。我們試圖建立乙個統計模型,以便它**乙個詞屬於某個特定主題的概率。

主題連貫性

但是這導致每個人的觀點不一致,我們需要乙個方法來評估正確的主題數量。我們使用主題連貫性的度量來確定正確的主題數量。

主題連貫性應用於主題的前n個單詞。它被定義為主題詞的成對詞相似度得分的平均值/中位數。乙個好的模型將產生連貫的主題,即主題連貫性得分高的主題。

好的主題是可以用乙個簡短的標籤來描述的主題;因此,這就是主題一致性度量所捕獲的內容。

聚類接著我們可以確定主題/簇的總數(在我們的例子中是7個主題)。我們應該開始將每個事務描述訊息分配到主題中。在為主題分配文件時,單靠主題模型可能無法產生準確的結果。

在這裡,我們使用主題模型的輸出以及其他一些特性,使用k-means集群對事務描述訊息進行聚類。在這裡,我們將集中精力為k-means聚類構建乙個特徵集。

特徵查詢特徵,行業頂級品牌和常用名詞用作查詢名稱。統計交易描述中與特定行業相關的字數。

其他:優步、空客、包裝商等。

主題模型特徵

每個事務描述都有大約30個特徵,我們執行k-means聚類將每個事務描述分配給7個集群中的乙個。

結果表明,靠近簇中心的觀測值大多標註了正確的主題。很少有遠離簇中心的觀測被賦予錯誤的主題標籤。

在手工檢查的350個事務描述中,大約240個(準確率約69%)事務描述被正確地標記為適當的主題。

現在我們至少對內部客戶的偏好和興趣有了乙個基本的估計。我們可以傳送定製的**和選項,以保持他們的參與和改善業務。

雖然使用主題模型的方法相對新穎,但使用交易對客戶進行分類的方法主要是由信用卡發卡機構使用的。

例如,美國運通一直在使用這種方法為客戶建立興趣圖。這種興趣圖不僅將交易分為食物、旅遊等主要群體,而且還建立了泰國美食愛好者、野生動物愛好者等微觀細分市場,所有這些都僅僅來自於豐富的交易資料!

歡迎關注磐創ai部落格站:

sklearn機器學習中文官方文件:

歡迎關注磐創部落格資源彙總站:

基於ML的中文短文本聚類

整個過程分為以下幾個步驟 一 引入,python 依賴包,並載入語料 import random import jieba import pandas as pd import numpy as np from sklearn.feature extraction.text import tfidf...

聚類之層次聚類 基於劃分的聚類(

目錄 一層次聚類 層次聚類的原理及分類 層次聚類的流程 層次聚類的優缺點 二劃分聚類法k means kmeans演算法的原理 k均值的優缺點及分類 k means與dbscan的區別 k means注意問題 三基於密度的聚類 dbscan的概念 簇的生成原理及過程 根據資料點的密度分為三類點 db...

文字聚類 用k means對文字進行聚類

coding utf 8 created on thu nov 16 10 08 52 2017 author li pc import jieba from sklearn.feature extraction.text import tfidfvectorizer from sklearn.cl...