資料倉儲—在「啤酒與尿布」中挖掘
2006.01.16 來自:賽迪
對話者:
主持人:程鴻——《計算機世界》報記者
專家:孟曉峰——中國人民大學資訊學院教授
祁國輝——「資料倉儲之路」**主持人
it廠商:楊順生——ncr大中華區市場及合作夥伴總經理
用戶:陳道斌——工商銀行資訊管理部處長(博士)
對話主題:
資料倉儲在中國的應用前景如何?
資料倉儲的門檻有多高?
主持人:自從「啤酒和尿布」的故事在中國廣泛流傳之後,資料倉儲在中國也熱鬧了一陣子,許多企業家曾對它抱以極大的希望,但為什麼時隔不久資料倉儲應用就進入了「冬眠期」?資料倉儲技術在中國的應用受到了哪些因素的制約?
孟曉峰:資料倉儲是在資料庫基礎上發展而來的,它通常有三個部分:資料倉儲(data warehousing)、聯機分析處理(olap)及資料探勘(datamining),它們之間具有極強的互補關係。資料倉儲是為了滿足人們在高度資料積累基礎上進行資料分析的需要而產生的,但由於目前中國在基礎資料的積累方面存在不足,導致資料倉儲技術的應用沒能推廣開來。乙個技術的出現一般是由於創新者提出新的概念,研究者去解決某些問題;雖然資料倉儲已經跨過了這一階段,但目前在資料倉儲的應用推廣過程中,又遇到了乙個門檻,那就是這種技術如何被多數人所接受。我認為要使資料倉儲被多數人接受,首先需要解決的問題就是資料探勘技術如何與現有商業技術的結合。目前市場上已有多種適用解決所有商業模式的通用資料探勘系統,但實際上這些系統極其不好用,只有那些非常熟悉資料探勘技術的人才能夠理解和使用它們,而普通使用者是很難應用這些技術來解決自己的商業問題。
楊順生:我們是一家真正經營資料倉儲產品的企業,從我們與國內企業接觸的經驗來看,資料倉儲技術在中國沒能很好發展起來,主要有以下幾方面原因:第一,中國的資訊化基礎裝置相對不太完善,例如目前電信行業的計費資料非常分散,計費工具就有40~50種,資料採集都是各搞各的,為今後的分析帶來許多技術上的困難。第二,企業的競爭意識和服務意識還不夠強,對於決策分析的需求還不那麼迫切,由於企業沒有機會實施資料倉儲,因而也相應造成這方面技術人才缺乏的現象。第三,資料倉儲是乙個資料共享的系統,不同層面的人從中得到的資訊會大不一樣,它對企業決策是乙個很好的工具,但目前中國企業沒有建立起乙個管理機制來推動資料的共享,不論是對人的能力、企業的組織制度還是資料質量都沒有乙個連續的管理機制,要在這樣的基礎之上建立好用的資料分析是非常困難的。
祁國輝:實際上,在國外市場競爭非常激烈的環境下,每個商場為了自身的生存,已經想盡了辦法,很多能夠被人工發現的規律早就發現了,在這種情況下,使用資料探勘技術來解決問題是乙個很正常的想法。但是資料探勘工具並不能直接告訴決策者應該把啤酒和尿布擺在一起賣。國內企業有很多實施了資料倉儲,但結果大多不盡如人意,其關鍵的原因在於,建設資料倉儲時一定要先確認為什麼要投資資料倉儲?要利用資料倉儲解決什麼問題?資料倉儲要達到什麼目的才可以告一段落? 否則做完資料倉儲還不知道該怎樣來用,如何評價其成功與否。其次,資料倉儲不是那種買來就可以使用的軟體產品,事實上,資料倉儲更像乙個過程,乙個使用者逐步認識自己、提高自己的過程。第三,資料倉儲不僅要反映出企業的現狀,而且還要依靠使用者做出最終的決策。總之,國內資料倉儲不太成功的原因除了使用者的應用水平、業務管理水平有待提高外,資料倉儲產品**居高不下的原因也多多少少影響到其在國內的順利推廣。
陳道斌:我本人是從事資訊分析方面工作的,對於為什麼要借助資料倉儲也正在展開一些研究。作為使用者我感到,銀行業最需要資料倉儲技術,也最應該大力發展資料倉儲技術。近幾年國內幾大銀行都在這方面進行了一些嘗試,然而迄今為止失敗者多,成功者少。其中最主要的原因就是許多銀行在建立資料倉儲系統時,對系統所要實現的功能定位不明確。乙個資料倉儲系統應明顯區別於業務處理系統,因為業務系統的要求往往是快速響應和介面簡單等。而資料倉儲與業務系統並不是平行的關係,它應該是基於所有業務系統之上的,對業務資訊進行採集、分析、整理和發布等,應該是乙個穩定的、帶有時間引數的資料集合。資料倉儲技術本身並沒有新的內容,它是管理科學、電腦科學、網路科學和分析手段的大融合。
資料倉儲技術好用嗎?
主持人:資料倉儲應用不理想是否存在技術上的原因?使用者的層次與資料倉儲前端工具之間是否存在矛盾?
孟曉峰:在資料倉儲的三個概念中,資料倉儲是企業進行資料分析的基礎,它的主要工作是將資料庫中的原始資料進行歸納整理,聚集成乙個可供高層次使用的資料集合。在資料倉儲的基礎上有兩類分析工具,一類是做分析型工作的olap,另一類是做**型工作的資料探勘。資料探勘概念的提出,是希望發現像「啤酒和尿布」這樣具有關聯性的規律。但目前這套技術體系,無論在中國還是在世界其他國家,應用都受到一定制約,最主要的原因是,這套技術還沒有達到資料庫技術的成熟度和易用性。但目前看來,所有產品的可用性都還值得懷疑,因為如果你不是乙個資料庫專家、統計學專家以及人工智慧專家,你將很難用好這樣的分析工具。目前市場上的資料倉儲產品都是基於乙個通用的技術平台而設計的,這種產品雖然能夠解決不同使用者的分析需求,但它沒有將特殊領域的商業邏輯與資料倉儲技術整合起來,因而分析效果不可能達到峰值。另乙個技術瓶頸是目前各種演算法層出不窮,還沒有經歷乙個大浪淘沙的沉澱,而資料庫中的檢索技術經過人們多年的摸索,已經形成幾種固定、成熟的技術模式,這是資料倉儲產品沒能達到資料庫產品實用性的另乙個原因,所以說目前資料倉儲技術的發展仍處於積累階段。
陳道斌:工商銀行在建立資料倉儲系統時的統一認識是,在市場上買不到可以直接使用的資料倉儲產品,必須根據自己的業務進行量身定製,必須將自己的資料來源及業務需求理清楚,然後將中間搭橋的工作做好,這個搭橋的工作需要市場上的資料倉儲產品的支援,從一開始就必須注意業務與技術的協調。
祁國輝:由於資料倉儲是從西方國家產生的,它帶著濃厚的西方文化色彩,最典型的是資料倉儲中的報表展現。國外的產品注重的是報表內容,但是中國要求內容和格式一樣重要,甚至有些時候格式比內容更重要,在這一點上,國外的報表工具很難滿足中國使用者的需要。資料倉儲作為乙個工具,企業內部每個層次的使用者都可能利用它產生效益,但是真正實現起來,還是存在使用者水平與需求問題,我們不可能要求每個使用者都能夠自已去資料倉儲中獲取資料,而且安全措施也不允許這樣做。這時,我們需要的是一系列不同的資料倉儲前端工具,而這正是目前所有的資料倉儲產品都缺乏的。目前的產品大多數只提供一種工具,試圖滿足所有人的需求,結果每個人都不滿意。
資料倉儲應用範圍如何?
主持人:哪些行業對資料倉儲的需求較大?目前資料倉儲技術在國內哪些行業應用較好?為什麼?
楊順生:我曾經根據一些假設條件對某些行業和企業實施資料倉儲的成熟度作過分析。在2023年全球財富雜誌500家名單中,有近50%的企業已經實施了企業級資料倉儲或部門級資料集市,我們了解到電信、銀行、零售、航空、鐵路、郵政、食品、消費類製造、汽車、醫療、保險等行業是對於資料倉儲技術需求最為強烈的行業。在所有這些實施了資料倉儲的行業中,所佔比例分別是:零售業17家、航空業16家、有線**15家、移動通訊企業14家、銀行業13家。另外,我們還對目前全球不同行業實施過資料倉儲的企業數量進行了統計:根據國外實施的經驗,我們發現,領導的需求度、資訊科技基礎設施、分析型的應用需要以及競爭的激烈程度這四項因素是影響企業實施資料倉儲進度的關鍵因素。企業規模越大、歷史資料越多,實施資料倉儲的迫切性就越高;零售和製造型企業目前較重視成本控制,會首先使用營運和生產的分析型應用;**監管部門由於歷史資料採集的困難,實施資料倉儲的速度相對較慢;企業集團總部為加強監管,會採用資料倉儲作為處理和分析大集中的資訊科技手段;受過工商管理學教育的領導,比較重視科學化的決策手段,因此比較支援資料倉儲的建設。
陳道斌:目前在中國金融系統只有工商銀行在資料倉儲的應用方面有所突破,其原因是:首先工商銀行規模較大,客戶群龐大,因此必須對客戶進行深入研究,以實現以客戶為中心的服務模式;其次,早在2023年9月1日,工商銀行就提出將所有業務都集中在北京和上海兩個中心進行處理,實際上解決了建立資料倉儲所必需的資料集中問題;第三,工商銀行有乙個最大的優勢,就是已經推行了一套統一開發的綜合業務系統,提供了客戶資訊整合的條件。而從領導支援的角度看,現在的行長是專門研究高技術環境下的商業發展問題的,他對於利用資訊科技發展銀行業務有著獨到的見解,因此工商銀行目前在資料倉儲的第乙個專案(客戶關係管理)上已經有了實質性的進展。
怎樣跨過資料倉儲門檻?
主持人:中國資料倉儲市場成熟嗎?對於前面所提到的制約因素,我們能夠提出哪些解決思路?應採取什麼樣的措施和手段來推動中國企業資料倉儲的應用?
祁國輝:這個問題問得好!gartner group 曾經有乙份資料倉儲市場占有率的報告,從報告中可以看出,到2023年,美國的資料倉儲銷售額將佔全世界的58%,亞洲只佔7.5%,不難看出我們的差距。但是目前兩者的技術發展速度相差不多,所以說資料倉儲應用市場在中國還是存在的。我認為惟一的解決辦法是,讓企業直接面向競爭激烈的市場,改變管理思路,這樣很快就會產生需求,看書學拳擊永遠也領悟不到拳王的豐富經驗。
孟曉峰:現在越來越多的公司在建立基於web的電子商店,這些商店可以收集到大量的原始資料,因此電子商務成為資料倉儲技術極有前途的應用領域。而如何為電子商務應用提供一套特殊的資料倉儲解決方案,應該比乙個通用化的解決方案更能夠為市場所接受,從而跨過資料倉儲應用過程的門檻。現在資料倉儲應用領域有許多定製的需求,使用者急需一種既可以提供資料分析又可以提供客戶個性分析的工具。
楊順生:從先進國家的經驗中我們發現,聯機交易處理系統(oltp)和企業網兩項資訊化基礎設施是實施資料倉儲的必備條件。競爭環境越激烈就越需要資料倉儲系統,企業需要了解客戶的需求、需要發現經營風險同時還需要進行經營分析和管理,所有這些分析都屬於大資料量的分析,採用傳統的資訊科技將會產生很多侷限性,必須依靠乙個tb級的資料倉儲系統才能解決以上問題。資料倉儲是分析型的應用,是解決複雜經營問題最合適的資訊科技。但這些觀點適合中國的企業生態環境嗎?有沒有國內的案例可以支援上述觀點呢?最近上海****登記結算公司和中國民航資訊網路公司已成功地實施了tb級資料倉儲系統,這兩個案例是對中國企業、事業單位實施資料倉儲必要性最有力的論證。
陳道斌:從工商銀行實施資料倉儲的情況看,資料倉儲技術在中國有著極大的發展前景。資料倉儲本身的技術和方法體系有很多,但在建立資料倉儲應用時,還應該以問題為導向而不能以方法為導向,要根據問題尋找產品和工具。在這方面失敗的例子太多了,主要原因就是許多企業是先購買了資料倉儲產品,覺得這個產品很好,一定要將它用起來,然後才開始建立自己的系統,這種做法已經被實踐證明是不可行的。開發資料倉儲應用不能急於求成,希望一次能夠將所有的問題都解決是不可能的。資料倉儲的建設過程要講究方**,要在乙個大的需求框架下進行,在業務和技術人員很好溝通的情況下,一次解決乙個問題。
資料探勘例項 啤酒 尿布及星期五
源位址1 尿布 啤酒 星期五,這三個名詞相互之間會有什麼關係?十幾年前,所有人都不會覺得這三件事有任何關係,一直到 90年代的某一天,一位百貨員工在分析營業資料時偶然發現,尿布和啤酒竟然常常被放在同乙個購物籃中,而且大部分在星期五。這是怎麼一回事?經過進一步分析後,原來當地婦女通常會在星期五請先生下...
資料倉儲(OLAP OLTP)與資料探勘
一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...
資料探勘 資料倉儲
雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...