從資料分析的角度來看,資料探勘與機器學習有很多相似之處,但不同之處也十分明顯,例如,資料探勘並沒有機器學習探索人的學習機制這一科學發現任務,資料探勘中的資料分析是針對海量資料進行的,等等。從某種意義上說,機器學習的科學成分更重一些,而資料探勘的技術成分更重一些。
本文選自《大資料架構詳解:從資料獲取到深度學習》
機器學習(machine learning,ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。其專門研究計算機是怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構,使之不斷改善自身的效能。
資料探勘是從海量資料中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。資料探勘中用到了大量的機器學習界提供的資料分析技術和資料庫界提供的資料管理技術。
學習能力是智慧型行為的乙個非常重要的特徵,不具有學習能力的系統很難稱之為乙個真正的智慧型系統,而機器學習則希望(計算機)系統能夠利用經驗來改善自身的效能,因此該領域一直是人工智慧的核心研究領域之一。在計算機系統中,「經驗」通常是以資料的形式存在的,因此,機器學習不僅涉及對人的認知學習過程的探索,還涉及對資料的分析處理。實際上,機器學習已經成為計算機資料分析技術的創新源頭之一。由於幾乎所有的學科都要面對資料分析任務,因此機器學習已經開始影響到電腦科學的眾多領域,甚至影響到電腦科學之外的很多學科。機器學習是資料探勘中的一種重要工具。然而資料探勘不僅僅要研究、拓展、應用一些機器學習方法,還要通過許多非機器學習技術解決資料倉儲、大規模資料、資料雜訊等實踐問題。機器學習的涉及面也很寬,常用在資料探勘上的方法通常只是「從資料學習」。然而機器學習不僅僅可以用在資料探勘上,一些機器學習的子領域甚至與資料探勘關係不大,如增強學習與自動控制等。所以筆者認為,資料探勘是從目的而言的,機器學習是從方法而言的,兩個領域有相當大的交集,但不能等同。
典型的資料探勘和機器學習過程
下圖是乙個典型的推薦類應用,需要找到「符合條件的」潛在人員。要從使用者資料中得出這張列表,首先需要挖掘出客戶特徵,然後選擇乙個合適的模型來進行**,最後從使用者資料中得出結果。
把上述例子中的使用者列表獲取過程進行細分,有如下幾個部分。
業務理解:理解業務本身,其本質是什麼?是分類問題還是回歸問題?資料怎麼獲取?應用哪些模型才能解決?
資料理解:獲取資料之後,分析資料裡面有什麼內容、資料是否準確,為下一步的預處理做準備。
資料預處理:原始資料會有雜訊,格式化也不好,所以為了保證**的準確性,需要進行資料的預處理。
特徵提取:特徵提取是機器學習最重要、最耗時的乙個階段。
模型構建:使用適當的演算法,獲取預期準確的值。
模型評估:根據測試集來評估模型的準確度。
模型應用:將模型部署、應用到實際生產環境中。
應用效果評估:根據最終的業務,評估最終的應用效果。
整個過程會不斷反覆,模型也會不斷調整,直至達到理想效果。
機器學習&資料探勘應用案例
1 尿布和啤酒的故事
先來看一則有關資料探勘的故事——「尿布與啤酒」。
總部位於美國阿肯色州的世界著名商業零售連鎖企業沃爾瑪擁有世界上最大的資料倉儲系統。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪資料倉儲裡集中了其各門店的詳細原始交易資料,在這些原始交易資料的基礎上,沃爾瑪利用ncr資料探勘工具對這些資料進行分析和挖掘。乙個意外的發現是:跟尿布一起購買最多的商品竟然是啤酒!這是資料探勘技術對歷史資料進行分析的結果,反映了資料的內在規律。那麼,這個結果符合現實情況嗎?是否有利用價值?
於是,沃爾瑪派出市場調查人員和分析師對這一資料探勘結果進行調查分析,從而揭示出隱藏在「尿布與啤酒」背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買完尿布後又隨手帶回了他們喜歡的啤酒。
既然尿布與啤酒一起被購買的機會很多,於是沃爾瑪就在其各家門店將尿布與啤酒擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。
2 決策樹用於電信領域故障快速定位
電信領域比較常見的應用場景是決策樹,利用決策樹來進行故障定位。比如,使用者投訴上網慢,其中就有很多種原因,有可能是網路的問題,也有可能是使用者手機的問題,還有可能是使用者自身感受的問題。怎樣快速分析和定位出問題,給使用者
乙個滿意的答覆?這就需要用到決策樹。
下圖就是乙個典型的使用者投訴上網慢的決策樹的樣例。
3 影象識別領域
來自google研究院的科學家發表了一篇博文,展示了google在圖形識別領域的最新研究進展。或許未來google的圖形識別引擎不僅能夠識別出中的物件,還能夠對整個場景進行簡短而準確的描述。這種突破性的概念來自機器語言翻譯方面的研究成果:通過一種遞迴神經網路(rnn)將一種語言的語句轉換成向量表達,並採用第二種rnn將向量表達轉換成目標語言的語句。
而google將以上過程中的第一種rnn用深度卷積神經網路cnn替代,這種網路可以用來識別影象中的物體。通過這種方法可以實現將影象中的物件轉換成語句,對影象場景進行描述。概念雖然簡單,但實現起來十分複雜,科學家表示目前實驗產生的語句合理性不錯,但距離完美仍有差距,這項研究目前僅處於早期階段。下圖展示了通過此方法識別影象物件並產生描述的過程。
4 自然語言識別
自然語言識別一直是乙個非常熱門的領域,最有名的是蘋果的siri,支援資源輸入,呼叫手機自帶的天氣預報、日常安排、搜尋資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。
微軟的skype translator可以實現中英文之間的實時語音翻譯功能,將使得英文和中文普通話之間的實時語音對話成為現實。
skype translator的運作機制如圖。
在準備好的資料被錄入機器學習系統後,機器學習軟體會在這些對話和環境涉及的單詞中搭建乙個統計模型。當使用者說話時,軟體會在該統計模型中尋找相似的內容,然後應用到預先「學到」的轉換程式中,將音訊轉換為文字,再將文字轉換成另一種語言。
雖然語音識別一直是近幾十年來的重要研究課題,但是該技術的發展普遍受到錯誤率高、麥克風敏感度差異、雜訊環境等因素的阻礙。將深層神經網路(dnns)技術引入語音識別,極大地降低了錯誤率、提高了可靠性,最終使這項語音翻譯技術得以廣泛應用。
大資料中,機器學習和資料探勘的聯絡與區別
資料探勘是從海量資料中獲取有效的 新穎的 潛在有用的 最終可理解的模式的非平凡過程。資料探勘中用到了大量的機器學習界提供的資料分析技術和資料庫界提供的資料管理技術。從資料分析的角度來看,資料探勘與機器學習有很多相似之處,但不同之處也十分明顯,例如,資料探勘並沒有機器學習探索人的學習機制這一科學發現任...
詳解資料探勘與機器學習的區別與聯絡
大資料就是許多資料的聚合 大資料的特徵 1 資料量大 2 結構複雜 3 資料更新速度快 機器學習是人工智慧的核心,要對大資料進行發掘,靠人工肯定是做不到的,要通過乙個模型讓計算機按照模型去執行,就是機器學習。機器學習方法在大型資料庫中的應用稱為資料探勘 data mining 資料探勘就是把大資料的...
資料探勘和機器學習的區別和聯絡
資料探勘和機器學習的區別和聯絡,周志華有一篇很好的論述 機器學習與資料探勘 可以幫助大家理解。資料探勘受到很多學科領域的影響,其中資料庫 機器學習 統計學無疑影響最大。簡言之,對資料探勘而言,資料庫提供資料管理技術,機器學習和統計學提供資料分析技術。由於統計學往往醉心於理論的優美而忽視實際的效用,因...