《R語言資料探勘》讀書筆記 一 預備知識

2021-09-27 09:16:24 字數 1726 閱讀 1090

還引用了大量前輩的部落格總結,先謝過。

第一章、預備知識

1.大資料

2.資料來源

3.資料探勘

資料探勘演算法與資料結構演算法對比:

資料探勘領域十大經典演算法

3.1特徵提取

頻繁項集:找出一堆專案**現最為頻繁、關係最為密切的乙個子集。

相似項:一對資料集,他們擁有較大比例的共同元素。

3.2資料探勘目標

使相同類中的點彼此之間距離較小,而不同的類中的點彼此之間距離較大。

3.3資料探勘過程

crisp-dm (cross-industry standard process for data mining)跨行業資料探勘標準過程

semma(sample,explore,modify,model,assess)取樣、探索、修正、建模、評估

4.社交挖掘

5.文字挖掘

6.網路資料探勘

7.r語言優缺點

8.統計學

8.1統計學與資料探勘

統計模型用來總結資料集合,也可以用於驗證資料探勘結果

8.2統計學與機器學習

統計檢驗用來驗證機器學習模型和評估機器學習演算法,機器學習技術與標準統計技術可以有機結合。

8.3資料探勘中統計學的侷限性

在試圖提取並不真正存在於資料中的資訊時可能會犯錯誤。關鍵名詞:bonferroni原則

9.機器學習

9.1機器學習是什麼

應用於機器學習演算法的資料集稱為訓練集,它由一組成對的資料(x,y)構成,稱為訓練樣本。

機器學習過程的目的就是發現乙個函式y=f(x),他能最好地**與每乙個x值相關聯的y值。

9.2機器學習方法

決策樹感知器:一般是應用於向量x=分量的閾值函式

神經網路:這些是有感知器的非迴圈網路,某些感知器的輸出用作其他感知器的輸入

基於例項的學習:此方法使用整個訓練集來表示函式f

支援向量機:該類的結果是乙個分類器,它對未知數更準確。

9.3機器學習架構

10.資料屬性與描述

10.1資料描述

集中趨勢的度量、資料的離散程度的度量(全距、四分位數、四分位數間距等)

11.資料清洗

資料清洗試圖填補缺失值、發現異常值同時平滑雜訊、修正資料中的不一致性。資料清洗通常是乙個兩步迭代的過程,由差異檢測和資料變換構成。

12.資料整合

將多個資料來源中的資料合併,形成乙個一致的資料儲存

13.資料降維

13.1特徵值和特徵向量

13.2主成分分析pca

13.3奇異值分解svd

13.4cur分解

14.資料變化與離散化

把資料格式變成一些資料便於適合資料探勘演算法的格式,以便作為資料處理前特定資料探勘演算法的輸入。

15.資料視覺化

《資料探勘導論》讀書筆記(一) 緒論

書名 資料探勘導論 introduction to data mining 資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以 未來觀測結果。傳統資料分析技術遇到的實際問題 可伸縮 需要處理海量資料,演算法必須是可伸縮的 s...

《R實戰》讀書筆記一

你只要想處理資料,r實戰 這本書就可以助你一臂之力。r實戰 的目標是讓你認識r,並且能夠對資料進行操作,視覺化和理解。該書包括4部分16個章節8個附錄。第一部分 入門,包括5章,簡述如下。第一章 r簡介。談及r是什麼以及r的安裝,r的互動式程式設計和批處理程式設計。第二章 建立資料集。談及r獲取資料...

《資料探勘導論》讀書筆記1

資料預處理 1.聚集 將兩個或者多個物件合併成單個物件。2.抽樣 一種選擇資料物件子集進行分析的常用方法。抽象方法 簡單隨機抽樣 和漸進抽樣 3.維度約 我覺得翻譯的不好,英文明細是降維。降維技術 1.pca principal components analysis 是一種用於連續屬性的線性代數技...