資料探勘1基礎概念

機器學習：假設用p來估計計算機程在某個任務t上的效能，若乙個程式通過利用經驗e在t中獲得了效能改善，我們說關於t和p，該程式對e進行了學習。

適用機器學習的地方：

1、表現或目標能夠增進

2、不知道把規則寫下

3、一切學習從資料開始

人工智慧的核心主要使用歸納、綜合而不是演繹。

機器學習的三要素：資料、模型、演算法

分類：目標標記為離散型資料

回歸：目標標記為連續型資料

有監督學習：訓練集有類別標記

無監督學習：訓練集無類別標記

半監督學習：有類別標記的訓練集+無標記的訓練集

機器學習的步驟：

1、將資料拆分為訓練集、測試集以及驗證集（可以有）

2、把訓練集和訓練集的特徵向量來訓練演算法

3、用學習來的演算法用在測試集上來評估演算法，可能要調整引數，用驗證集

機器學習提供資料分析能力，雲計算提供資料處理能力，眾包提供資料標記能力。

精度=1-錯誤率=1-樣本分類錯誤個數/總樣本個數，學習器在訓練集上的誤差稱為訓練誤差或經驗誤差。

過擬合：學習器可能把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質，導致泛化效能下降。

欠擬合：學習器對訓練樣本一般性質尚未學好。

評估方法

留出法：將資料集劃分為兩個互斥的資料集，訓練集與測試集。

交叉驗證法：

自助法：

效能度量

錯誤率與精度

查準率、查全率

任務根據其他屬性的值，特定屬性的值。通常資料探勘的任務描述任務匯出概括資料中潛聯絡的模式四種主要的資料探勘任務建模關聯分析聚類分析異常檢測建模分類用於離散的目標變數回歸用於連續的目標變數關聯分析用於發現描述資料中強關聯特徵的模式。異常檢測識別器特徵顯著不同於其他資...

從大量資料中挖掘出隱含的未知的對決策有潛在價值的關係模式和趨勢，並用這些知識和規則建立用於決策支援的模型，提供性決策支援的方法工具和過程，這就是資料探勘。是統計學資料庫技術人工智慧技術的結合。利用分類與聚類分析關聯規則時序模式偏差檢測智慧型推薦等方法，幫助企業提取資料中蘊含的...

1.資料探勘概念筆記引論感覺不錯，讀之並記之。章節也是按照書中章節來，此處只是筆記，記錄一些重要的概念和核心的思想。為什麼要進行資料探勘？答需要是發明之母柏拉圖資訊時代每天產生的資料海量，不得不需要從中進行挖掘。資料探勘有什麼用？答可以將大型資料集轉化成知識。此外，資料探勘是資訊科技的進...