資料探勘是通過分析存在於資料庫裡的資料來解決問題。在激烈的競爭市場上,客戶忠誠度搖擺問題就是乙個經常提到的事例,乙個有關客戶商品選擇以及客戶個人資料的資料庫是解決這個問題的關鍵。以前客戶的行為模式能夠被用來分析並識別哪些喜歡選購不同的商品。甄別出那些善變的客戶群體,並加以特殊對待,須知對整個客戶群都加以特殊對待的成本是高昂的。
資料探勘被定義為找出資料中的模式的過程。這個過程必須是自動的或半自動的。資料的總量是相當可觀的,但從中發現的模式必須是有意義的,並能產生出一些效益,通常是經濟上的效益。
如何表示資料模式呢?有價值的模式能夠讓我們在新資料上作出非凡的**。表示乙個模式有兩種極端方法:一種是內部結構很難被理解的黑匣子;一種是展示模式結構的透明的匣子,它的結構揭示了模式的結構。我們假設兩種方法都能作出好的**,它們的區別在於被挖掘初的模式能否以結構的形式表現,這個結構是否能夠經得起分析,理由是否充分,能否用來形成未來的決策。如果模式能夠以顯而易見的方法獲得決策結構,我們就稱它們為結構模式,換句話說,它們能幫助解釋有關資料的一些現象。
在現實中,資料集不可避免地存在一些樣本,這些樣本中的某些屬性值因為一些原因而不可知、例如資料沒有被測量、丟失或其他原因。但是在通常情況下,因為資料中存在一些錯誤或者「干擾」,錯誤的分類的情況會發生在用來訓練分類器的資料上。
學習在字典中的定義如下:
通過學習、體驗或者被教授而得到知識。
從資訊或觀察中得知。
獲得記憶。
被告知、查明。
接受指令。
以前我們是從可操作的角度上定義機器學習:是從大量的資料中自動或半自動地尋找模式的過程,而且這個模式必須有用的。我們可以用同樣的方法為學習建立乙個可操作的定義:
當事物以令其自身在將來表現更好為標準來改變其行為時,它學到了東西。
在學習中,目的是學習者的目的,而在訓練中,目的是老師的目的。
通常真實的資料集存在乙個問題:就是私有的屬性。沒有人願意與你共享他們的客戶和產品選購的資料庫,從中讓你理解他們的餓資料探勘的應用和如何工作的細節。公共的資料是非常寶貴的資源,它們的價值隨著挖掘技術的發展而急劇增加。
決策列概念:規則按照先後次序判斷,看第一條是否適用,如果不適用,繼續下去,如果一組規則按次序判斷,就是決策列問題。決策列中不能單獨地使用嘴個進行判斷。
數值屬性問題和混合屬性問題。
規則當然可以分類,但不止於此,僅僅尋找一些規則,這些規則和不同的屬性值緊密關聯,稱為關聯規則。
在訓練過程中,出現的問題:
(1) 用於訓練的資料極少,有些事件是很少發生的,而為了避免這些事件如果人工進行分類,成本將造成極其昂貴。用機器學習成本降低。
(2) 問題的不均衡性,在訓練資料中,極少真正例,有些是假正例。
(3) 樣本自然地組成批,每一批都是從乙個影象中提取的區域的集合,批與批之間的背景是不一樣的。最後作為乙個過濾器來完成篩選的工作,並且必須為使用者提供乙個可變的簡便處理方法。
(4) 負載**:為管理上取得更大的經濟性。
(5) 疾病診斷;
(6) 市場和銷售:經典是購物籃分析問題。
(7) **行為的代價是昂貴的,但能產生高額利潤,所以廣告推薦,並且是推薦是合適的人,將是非常有趣的。
(8) 其他方面應用。
(9) 機器學習和統計學問題。
(10) 用於搜尋的概括。
(11) 列舉概念空間。
(12) 偏差:包括語言偏差、搜尋偏差、過度擬合偏差。
(13) 資料探勘和道德問題。這個話題比較新穎。
資料探勘學習筆記 資料探勘的方法和技術
分類 先給類別特點,再做判斷 可用於離散變數的取值 用來預報某些未知的或丟失的數字值 通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型 物件的類別的一種資料探勘和機器學習技術。聚類 沒有類別的情況下,根據物件特徵自己聚類 自己總結各種特徵,得出結論 準確率可能沒有分類高...
Python資料探勘與機器學習技術入門實戰
課程主講簡介 韋瑋 企業家,資深it領域專家 講師 作家,暢銷書 精通python網路爬蟲 作者,阿里雲社群技術專家。本次課程包含了五個知識點 1.資料探勘與機器學習技術簡介 2.python資料預處理實戰 3.常見分類演算法介紹 4.對鳶尾花進行分類案例實戰 5.分類演算法的選擇思路與技巧 一 資...
機器學習與資料探勘
機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...