還引用了大量前輩的部落格總結,先謝過。
第一章、預備知識
1.大資料
2.資料來源
3.資料探勘
資料探勘演算法與資料結構演算法對比:
資料探勘領域十大經典演算法
3.1特徵提取
頻繁項集:找出一堆專案**現最為頻繁、關係最為密切的乙個子集。
相似項:一對資料集,他們擁有較大比例的共同元素。
3.2資料探勘目標
使相同類中的點彼此之間距離較小,而不同的類中的點彼此之間距離較大。
3.3資料探勘過程
crisp-dm (cross-industry standard process for data mining)跨行業資料探勘標準過程
semma(sample,explore,modify,model,assess)取樣、探索、修正、建模、評估
4.社交挖掘
5.文字挖掘
6.網路資料探勘
7.r語言優缺點
8.統計學
8.1統計學與資料探勘
統計模型用來總結資料集合,也可以用於驗證資料探勘結果
8.2統計學與機器學習
統計檢驗用來驗證機器學習模型和評估機器學習演算法,機器學習技術與標準統計技術可以有機結合。
8.3資料探勘中統計學的侷限性
在試圖提取並不真正存在於資料中的資訊時可能會犯錯誤。關鍵名詞:bonferroni原則
9.機器學習
9.1機器學習是什麼
應用於機器學習演算法的資料集稱為訓練集,它由一組成對的資料(x,y)構成,稱為訓練樣本。
機器學習過程的目的就是發現乙個函式y=f(x),他能最好地**與每乙個x值相關聯的y值。
9.2機器學習方法
決策樹感知器:一般是應用於向量x=分量的閾值函式
神經網路:這些是有感知器的非迴圈網路,某些感知器的輸出用作其他感知器的輸入
基於例項的學習:此方法使用整個訓練集來表示函式f
支援向量機:該類的結果是乙個分類器,它對未知數更準確。
9.3機器學習架構
10.資料屬性與描述
10.1資料描述
集中趨勢的度量、資料的離散程度的度量(全距、四分位數、四分位數間距等)
11.資料清洗
資料清洗試圖填補缺失值、發現異常值同時平滑雜訊、修正資料中的不一致性。資料清洗通常是乙個兩步迭代的過程,由差異檢測和資料變換構成。
12.資料整合
將多個資料來源中的資料合併,形成乙個一致的資料儲存
13.資料降維
13.1特徵值和特徵向量
13.2主成分分析pca
13.3奇異值分解svd
13.4cur分解
14.資料變化與離散化
把資料格式變成一些資料便於適合資料探勘演算法的格式,以便作為資料處理前特定資料探勘演算法的輸入。
15.資料視覺化
《資料探勘導論》讀書筆記(一) 緒論
書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...
《R實戰》讀書筆記一
你只要想處理資料,r實戰 這本書就可以助你一臂之力。r實戰 的目標是讓你認識r,並且能夠對資料進行操作,視覺化和理解。該書包括4部分16個章節8個附錄。第一部分 入門,包括5章,簡述如下。第一章 r簡介。談及r是什麼以及r的安裝,r的互動式程式設計和批處理程式設計。第二章 建立資料集。談及r獲取資料...
《資料探勘導論》讀書筆記1
資料預處理 1.聚集 將兩個或者多個物件合併成單個物件。2.抽樣 一種選擇資料物件子集進行分析的常用方法。抽象方法 簡單隨機抽樣 和漸進抽樣 3.維度約 我覺得翻譯的不好,英文明細是降維。降維技術 1.pca principal components analysis 是一種用於連續屬性的線性代數技...