資料探勘並不遙遠

2021-04-01 22:21:39 字數 3192 閱讀 1346

從資料中挖掘更多的業務資訊、對未來的發展做出輔助分析,這就是資料探勘

的強大功能之一。那麼,企業是否已經開始對資料探勘感興趣甚至開始運用了呢?近日 ,我們對國家統計局、中國地質調查局等單位的cio進行了調查。

讓資料像人腦一樣智慧型,具有自動分析、判斷和**能力,這看似不可思議的應用

,正是資料探勘的功能。資料探勘正吸引著越來越多的企業的眼球。近日,北京長城儀 器廠、國家統計局、北京統計局等不少單位的有關人員紛紛表示正在關注資料探勘。

究竟什麼是資料探勘?國內哪些單位已經應用了資料探勘?如何挖掘資料?效果如 何?有哪些可借鑑的經驗?本期採訪了中國地質調查局、中石化石油勘探開發研究院、 北京長城儀器廠、重慶港務局、國家統計局、湖南統計局、泰安國稅總局等20家大中型 企事業單位的有關人員及我國資料庫專家王珊教授。

20%已應用,20%在建設,25%正在關注

資料探勘離我們並不遙遠。調查顯示,中國地質調查局、重慶港務局、湖南統計局 、南寧地稅等4家單位(佔20位被調查企業的20%)已經在應用資料探勘為分析、決策作 支援。 據中國地質調查局資訊中心資料探勘專案負責人張永波介紹,為了查詢礦產資源, 需要對海量地質資訊進行綜合處理、分析和評價。傳統方法是由許多專家根據自身經驗 進行人工評估。人工評估不僅周期長,不利於及時發現開採礦產資源,也不可避免地 帶有主觀色彩,甚至使判斷失誤,這間接造成了大量經濟損失。為此,早在上世紀80年 代,地質行業就引入了計算機,並開始探索資料探勘,通過資料探勘對海量地質資訊進 行自動處理、評價,從而幫助人們**哪些地方最可能蘊藏著礦產資源。經過近二十年 的研發、完善和應用,目前資料探勘在地質行業開始廣泛應用。 與中國地質調查局不同,重慶港務局、湖南統計局和南寧地稅都在近兩年才開始建 設資料倉儲,並在此基礎上摸索著開展了資料探勘應用,目前已經初步投入使用,有輔助了領導進行分析決策。 除此之外,中石化石油勘探開發研究院、國家統計局、國家工商銀行、中國民生銀 行等20%的被採訪企業表示,資料探勘系統正在建設中。北京長城儀器廠、國家統計局、 北京統計局等25%的被採訪企業表示正在關注,希望了解國內有哪些成功案例。其他35% 的被採訪企業則表示,目前的資訊化重點是鋪設網路,完善辦公系統、應用系統等,對

資料探勘不了解,暫時也沒考慮。

認識資料探勘

什麼是資料探勘?怎樣實現資料探勘?它如何讓資料像人腦一樣具有自動分析、判 斷和**能力? 據中國計算機學會副理事長資料庫專業委員會主任王珊教授介紹,資料探勘是資訊 化發展到一定程度的產物,是資料利用的乙個高階階段。隨著資料庫技術的迅速發展, 積累的資料越來越多。儘管目前的資料庫系統可以實現資料的錄入、修改、統計、查詢 等功能,但無法發現資料中潛存的關聯和規則,無法根據現有的資料**未來的發展趨 勢。如何發現資料背後隱藏的重要資訊,並對其進行更高層次的分析,以便更好地利用 這些資料,促使了資料探勘的出現。目前資料探勘有許多不同定義,簡而言之,就是從 資料探勘就是從大量不完全的實際應用資料中,提取隱含在其中的、人們事先不知道的 但又可能有用的資訊和知識的過程。 資料探勘的海量資料有兩種**,可以是從資料倉儲中來的,也可以是直接從資料 庫中來。所有的資料都需要再次進行選擇,具體的選擇方式與任務相關。 而所謂的資料倉不是可以買到的現成產品,是一種解決問題的方案。資料倉儲以

傳統的資料庫技術作為儲存資料和管理資源的基本手段,以統計分析技術作為分析資料 和提取資訊的有效方法,以人工智慧技術作為挖掘知識和發現規律的科學途徑。資料倉 庫的建立不是要取代原有的資料庫,而是資料庫技術的一種新的應用,用於支援決策分 析。

正是由於資料倉儲整合了豐富的海量資訊,能大大簡化資料探勘過程,因此中國地 質調查局、重慶港務局、湖南統計局、南寧地稅等4家單位的資料探勘都是在資料倉儲的 基礎上實現的。 「而讓資料像人腦一樣具有自動分析、判斷和**的關鍵就是建立分析模型」,王 珊表示:「建模就是把你的專業經驗、一般規律或普遍情況抽象成一種分析模型。一旦 模型建好之後,就可以把它應用到那些情形相似,而結果未知的判斷中。」

比如,假設你是乙個電信公司的營銷主管,公司想發展一些新的長途**使用者。依 據自身經驗,當你要尋找誰是最有潛力的新客戶時,你可以先了解一下在長途**上花 費時間比較多的老客戶是哪些人。因為你對老客戶的很多資訊了解得一清二楚,如年齡 、性別、信用記錄以及長途**使用狀況。這相當於你也掌握了很多潛在客戶的同樣的 資訊。通過對這些老客戶的年齡、性別、信用記錄等資訊進行統計分析,你就可以推斷 出最有潛力的新客戶是哪些群體。這比盲目地推銷要有效得多。 而建模就是在資料倉儲裡把上述分析過程建成乙個模型,從具體應用中抽象出若干 變數。比如,長途**使用者的乙個簡化模型可以用客戶的職業、職務、年薪、每個月長 話費、性別、地區等變數來表示。根據這個模型,系統就能設法從老客戶的大量通話記 錄中挖掘出潛在的新客戶的年齡、性別等資訊,幫助你發現新的長途**客戶群體。 實際上,資料探勘系統再有能耐,最終還是要靠人來設計、指揮。挖掘資料的過程 就是按照人們設計的「模型」對資料進行處理、分析、**的過程,它是人的經驗、分 析過程在計算機中的實現。 效果不錯,標準、建模是關鍵

談起資料探勘的應用效果和建設經驗,中國地質調查局、湖南統計局、重慶港務局 和南寧地稅局的有關負責人一致認為:效果不錯;有必要,也是未來的發展趨勢。但實 現很不容易,系統還有待完善。總結經驗,他們認為:首先資料規劃要有統一標準(想到中國移動正在實施的資料探勘系統,很多參與人員態度很悲觀,資料標準化是最大的問題);其 次,建模很重要。 據中國地質調查局資訊中心資料探勘專案負責人張永波介紹,從效果來看,首先, 資料探勘的分析效率比人工評價提高了很多倍;其次,資料探勘還能做原來人工沒法做 的工作,比如疊加處理。地質資料的種類很多,任何乙個空間點上都有幾十種地質資料 ,不同專家對此會有不同的評價,如何把幾十種資料疊加起來形成乙個綜合評價,依靠 傳統的人工操作,根本不可能實現,而資料探勘就可以。因此,資料探勘對礦產資源的 查詢、分析、決策比人工操作相對高效、完整。 與此同時,他也認為,實現的難度很大,最難的就是建模,因為它是乙個不斷反覆 、不斷完善的過程。如何把專家的經驗、思想體現出來,不僅要用到專業知識,還要用 到神經網路、概率統計、模糊數學等多學科理論。 對此,湖南統計局資料倉儲辦公室副主任肖勝利也深有同感。他認為,建模是乙個 使用者與開發商共同參與的過程,一般要求使用者具備專家的理論水平,否則,可能不知 道該怎麼用。另外,建模的過程一般是專家經驗、普遍經濟規律的抽象,它受到外界的 人為干擾因素越少,挖掘效果就越好,因此,更適合按市場規律執行的行業企業。 根據兩年來的建設經驗,湖南統計局、南寧地稅局、重慶港務局的有關人員都認為 ,前期的資料規劃、資料標準的制訂非常重要,否則,資料就沒有可比性,挖掘分析的 結果就不準確。

總之,目前達到理想狀態的應用還很少,多數使用者仍處於摸索階段。另外,我國許 多中小企業的基礎系統還沒建立,資料無法整合,這也使得資料探勘難以開展。因此, 普及還有待時日。但已經有不少大中型行業使用者已經開始關注和應用了資料探勘技術, 資料探勘並不是遙不可及的應用。

我們並不遙遠,是嗎?

我很懶,現在才發現。有些感知不再習慣用文本來記錄了。身體也開始不聽話了,一學習就感覺疲憊起來!我整天很忙碌,工作其實很輕鬆,可是我每天下來都感覺自己還有好多事情要做。是不是我工作的方式錯了?還是我做事情的速度慢了?難到我老了?沒有,我還年輕,我對生活還有很多的熱情和嚮往。這個週末我要好好審視我的工作...

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...

資料探勘 資料

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...