摘要
在我國,商業銀行是金融體系的主體,也是我國國民經濟的命脈。隨著2023年我國對外資銀行實行國民待遇,中國的銀行業開始面臨愈發激烈的市場競爭。如何提公升我國商業銀行的國際競爭力,進而確保中國金融體系和國民經濟健康穩定地發展在現階段顯得尤為重要。而效率是銀行競爭力的集中體現,只有提高了我國商業銀行的效率,才能保證我國商業銀行具有和國際跨國大銀行競爭的實力。而通過合理分析和設定客戶的訪問款方式對於提高銀行辦理業務效率有著重要的決定作用。隨著資料庫系統的廣泛應用,在各個應用領域都儲存了大量的資料,這些資料中包含了很多有用的資訊,因此發現各種大型資料庫中隱藏的、預先未知的資訊,以輔助相關的應用越來越重要,這正是資料探勘的任務。該文採用關聯規則的經典演算法apriori演算法對銀行管理系統中的客戶存款方式資料進行了挖掘,並對其中出現的問題提出了解決辦法。
1.研究背景
關聯規則介紹關聯規則最早產生於發現超市交易資料庫中隱含的模式。隨後吸引了許多研究者的興趣,其理論不斷深入和完善,應用領域也不斷擴大。現在關聯規則不但能夠挖掘交易資料庫,而且對數值型資料和分類資料都能夠進行很好地分析和處理。關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功**銀行客戶需求。一旦獲得了這些資訊,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的atm機上就**了顧客可能感興趣的本行產品資訊,供使用本行atm機的使用者了解。如果資料庫中顯示,某個高信用限額的客戶更換了位址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高階的新信用卡,或者需要乙個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打**諮詢的時候,資料庫可以有力地幫助**銷售代表。銷售代表的電腦螢幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼產品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物**使用關聯規則中規則進行挖掘,然後設定使用者有意要一起購買的**包。也有一些購物**使用它們設定相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,「資料海量,資訊缺乏」是商業銀行在資料大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現資料的錄入、查詢、統計等較低層次的功能,卻無法發現資料中存在的各種有用的資訊,譬如對這些資料進行分析,發現其資料模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
由於許多應用問題往往比超市購買問題更複雜,大量研究從不同的角度對關聯規則做了擴充套件,將更多的因素整合到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支援管理決策的範圍。如考慮屬性之間的類別層次關係,時態關係,多表挖掘等。
2.指標體系的構建和資料收集
本文研究物件是工商銀行、農業銀行、中國銀行、建設銀行、交通銀行、中信實業銀行、光大銀行、華夏銀行、民生銀行、廣東發展銀行、深圳發展銀行、招商銀行、興業銀行、浦東發展銀行、恆豐銀行(原煙台住房儲蓄銀行)等15家銀行。時間序列取2023年到2023年的資料。資料**於1996—2023年間《中國金融年鑑》公布的各銀行的資產負債表、損益表和利潤分配表以及中國經濟資訊網資料庫公布的1995—2023年的資料,一部分還依據中國經濟資訊網資料庫公布的資料進行處理得出。
3.關於實證研究方法的選擇
3.1.從20世紀90年代中期開始,在資訊系統和資訊科技中形成了3個相關領域,它們都強調從資料中獲得更多的資訊。它們是資料倉儲、知識管理和資料探勘。隨著計算機軟硬體的進步,許多行業都能較從前更容易地獲得並負擔各種應用。本文著重討論資料探勘,這一技術的目標是從資料中找到有效、新穎、有潛在價值並可理解的相互關係和模式(chung和gray,1999)。本文專門討論了關聯規則在銀行業中,資料探勘對於業務細分和設定比例的意義。
3.2.資料探勘,又稱知識發現,就是從大量不完全的、有雜訊的、模糊的和隨機的實際應用資料中,提取隱含其中的新穎的、潛在的、有用的、資訊和知識的過程。資料探勘所發現的知識最常見的包括:廣義知識、關聯知識、分類知識、**型知識、偏差型知識等。關聯知識是反映乙個事件和其他事件之間依賴或關聯的知識。關聯知識發現即關聯規則挖掘在資料探勘中是乙個重要的課題最近幾年已被業界所廣泛研究。當前
,資料探勘工作的研究與應用已引起統計學家、金融學家、計算機專家以及企業家的廣泛關注
,他們從資料探勘的功能、方法到應用領域和軟體開發等各個方面都有所觸及。關於資料探勘的內涵
,不同的學者對它的詮釋
,表述不盡相同
,但其實質內涵基本一致
,即資料探勘是
「在龐大的資料庫中尋找出有價值的隱藏事件
,加以分析
,並將這些有意義的資訊歸納成結構模式
,作為企業在進行決策時之參考依據」【
3】。顯然
,資料探勘具有這樣的特點
:其物件是海量資料
,且資料龐雜
;其運用工具離不開計算機
;所用資訊不明顯。近幾年,隨著
it技術的發展
,尤其資料庫技術的發展
,資料探勘工作與理論研究工作成為必要的現實
,也越來越引起學術界和企業的關注。
3.3.關聯規則,是資料探勘中的一種主要的挖掘技術,也是非常活躍的研究領域。關聯規則挖掘是沒有指導、沒有監督的資料探勘。通過對資料集的分析處理,挖掘出資料集中項之間的有趣聯絡[1]。通過挖掘關聯規則,還可以使人們了解各種事務之間的相關作用。如果事務的兩項或多項之間存在關聯,那麼其中一項的值就可以依據其他項的值進行**。資料項的集合稱為項集,包含項集的事務在整個事務資料庫中所佔的百分比稱為項集的支援度,乙個項集的出現導致另乙個項集出現的條件概率稱為其關聯規則的置信度,支援度和置信度同時滿足最小支援度閾值min_sup和最小置信度閾值 min_conf 的關聯規則稱為強關聯規則。
3.4.apriori演算法,最為著名的關聯規則發現方法是r.agrawal提出的apriori演算法。該演算法可以分為兩步:第一步是迭代識別所有的頻繁專案集,要求頻繁專案集的支援度不低於使用者設定的最低值;第二步是從頻繁專案集中構造置信度不低於使用者設定的最低值的規則。由演算法過程可知,k-項頻繁集lk是從k-項候選集ck選出的,後者由(k-1)-項頻繁集lk-1生成,1-項候選集c1由初始專案生成,這是乙個迭代演算法。
由頻繁項集產生強關聯規則
強關聯規則是利用k-項頻繁集lk進行構造的。由apriori演算法可以產生k-項頻繁集,而通過頻繁集產生強關聯規則的演算法可分為兩步:第一步是對每個專案頻繁集l找出l的所有非空子集;第二步是對l的每一非空子集α,若條件概率p(l-α/α)≥min_conf,則輸出強關聯規則α→l-α。
4.基於資料探勘的實證分析過程和結果
銀行業務關聯規則挖掘
銀行業務記錄集共包含7991個事務,含13種銀行業務,也稱專案,部分事務資料見表1,項集見表2。
4.1 產生頻繁集
已按字典排序的帶支援度的1-項候選集c1={atm_0.38,auto_0.09,ccrd_0.15,cd_0.25,ckcrd_0.11,cking_0.86,hmeqlc_0.16,ira_0.11,mmda_0.17,mtg_0.07,ploan_0.01,svg_0.62,trust_0.05}。
取min_sup=30%,得到候選集和頻繁集如:l1={atm,cking,
svg}l2=c2={(atm,cking),(atm,svg),(cking,svg)} l3=c3={(atm,cking,svg)}。
4.2產生強關聯規則
2-項頻繁集l2中專案的置信度矩陣如表3所示,每一置信度是其所在行對應的專案出現的條件下,出現該置信度所在列對應的專案的條件概率,是選擇強關聯規則的依據,「-」表示未計算。取min_conf=0.85,得到強關聯規則:atm→cking,(0.94),svg→cking,(0.88)。
3-項頻繁集 l3 中專案的置信度矩陣如表 4 所示,每一置信度是其所在行對應的專案出現的條件下,出現該置信度所在列對應的專案的條件概率,是選擇強關聯規則的依據。
取 min_conf=0.85,得到強關聯規則:atm∩svg→cking,(0.97)。
考慮稀有資訊依然存在挖掘價值,取 min_sup=15%,對應得到 k-項頻繁集:其中l1={ccrd,cd,hmeqlc,mmda}
規則置信度較低,挖掘效果不很明顯。
4.3 強關聯規則的語**釋
顯然,這三個強關聯規則,支援度均在 30%以上,置信度均在85%以上。其語義如下:使用了 atm 自動櫃員機借記卡業務的銀行顧客中 94%的人會再選擇 cking 支票業務,使用了svg儲蓄業務的銀行顧客中,88%的人會再選擇 cking支票業務,而同時使用了 atm 自動櫃員機借記卡業務和svg 儲蓄業務的顧客中,97%的人會再選擇cking 支票業務。可見,支票業務有強大的業務需求,是待拓展的業務。
5.結 論
本文以銀行客戶的訪問款方式為研究物件,採用關聯規則的經典演算法apriori演算法,對工商銀行、農業銀行、中國銀行、建設銀行、交通銀行、中信實業銀行、光大銀行、華夏銀行、民生銀行、廣東發展銀行、深圳發展銀行、招商銀行、興業銀行、浦東發展銀行、恆豐銀行(原煙台住房儲蓄銀行)等15家銀行的 11年的13種銀行業務原始指標資料進行實證研究。首先對原始指標資料進行銀行業務關聯規則挖掘,產生頻繁集和強關聯規則,得出以下結論: 通過關聯規則資料探勘,得到了cking支票業務與atm自動櫃員機和svg儲蓄業務強關聯關係,可見支票業務的市場需求非常強大。銀行需要對客戶進行細分,研究不同客戶對不同業務的需求比例,合理利用資源的同時提高銀行辦理業務的效率。
銀行編碼規則
編號 銀行名稱 001中國人民銀行 011國家金庫 102中國工商銀行 103中國農業銀行 104中國銀行 105中國建設銀行 201國家開發銀行 202中國進出口銀行 203中國農業發展銀行 301交通銀行 302中信銀行 303中國光大銀行 304華夏銀行 305中國民生銀行 306廣東發展銀行...
關聯規則(一)
關聯規則的發現是指找出支援度大於等於最小支援度 minsup 並且置信度大於最小置信度 minconf 的所有 規則。對於關聯規則分析來說,主要分為兩個步驟 1.找出頻繁項集 找出滿足最小支援度閾值的所有項集。2.規則的產生 從第一步中找出置信度大於最小置信度閾值的規則。一 基本定義 1.支援度 s...
關聯規則挖掘
關聯規則反映事物之間的相互依存性和關聯性。如果事物之間存在一定的關聯,那麼我們就可以通過乙個事物去 另乙個事物。我們要挖掘大量資料中人們感興趣的,有價值的資訊,包括概念,規則,規律等。關聯規則 發現資料中的規律 超市中什麼產品會 起購買?組合推薦 顧客在買了 臺pc之後下 步會購買?搭配推薦 哪種d...