資料探勘需要掌握的內容包括:統計學、機器學習、模式識別、資料庫和資料倉儲、資訊檢索、視覺化、演算法、高效能計算等。
下圖比較清楚的畫出了學習資料探勘需要掌握的知識內容:
1、統計學
統計學中用到的主要術語:
描述統計(descriptive statistics):研究資料收集、處理和描述的統計學方法。
推斷統計(inferential statistics):研究如何利用樣本資料來推斷總體特徵的統計學方法。
變數(variable):每次觀察會得到不同結果的某種特徵。
分類變數(categorical variable):觀測結果表現為某種類別的變數。
順序變數(rank variable):又稱有序分類變數,觀測結果表現為某種有序類別的變數。
數值型變數(metric variable):又稱定量變數,觀測結果表現為數字的變數。
均值(mean):均值也就是平均數,有時特指算術平均數,這是相對其他方式計算的均值,求法是先將所有數字加起來,然後除以數字的個數,這是測量集中趨勢,或者說平均數的一種方法。
中位數(median):也就是選取中間的數,要找中位數,首先需要從小到大排序,排序後,再看中間的數字是什麼。
眾數(mode):眾數也就是資料集**現頻率最多的數字。
2、機器學習
機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。
它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。
機器學習可以分為監督學習、無監督學習、半監督學習和主動學習。
監督學習主要是有樣本的情況下進行的學習訓練的過程。
無監督學習最主要的的過程是聚類分析,將模糊的多個類別通過聚類按照屬性進行分類。
半監督學習是包括已經有分類的樣本點或者無分類的樣本點綜合在一起考慮的過程。
主動學習主要是根據領域專家提供的專業知識進行學習,以提高模型的質量。
3、資料庫系統與資料倉儲
資料庫系統主要是依靠強大的sql查詢能力對資料進行深度的處理和挖掘。
資料倉儲現在比較流行的有hive,可以以資料進行離線處理,建立資料立方來分析建模。
4、資訊檢索
資訊檢索主要是對文字或者多**進行檢索,構建索引,以快速的定位需要的文件或檔案。
面向主題的應用,情感分析和tf.idf等都可以歸於資訊檢索的範疇。
跟我一起資料探勘(18) 什麼是資料探勘(1)
前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...
跟我一起資料探勘(18) 什麼是資料探勘(1)
前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...
跟我一起資料探勘(18) 什麼是資料探勘(1)
前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...