前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了(其實原來就挺火)。
先看一上概念:
資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。
價值包括以下幾類:
1、相關性
相關性分析是指對兩個或多個具備相關性的變數元素進行分析,從而衡量兩個變數因素的相關密切程度。相關性的元素之間需要存在一定的聯絡或者概率才可以進行相關性分析。相關性不等於因果性,也不是簡單的個性化,相關性所涵蓋的範圍和領域幾乎覆蓋了我們所見到的方方面面,相關性在不同的學科裡面的定義也有很大的差異。用於確定資料之間的變化情況,即其中乙個屬性或幾個屬性變化的是否會對其它屬性造成影響,影響有多大。
2、趨勢
是指將實際達到的結果,與不同時期財務報表中同類指標的歷史資料進行比較 ,從而確定財務狀況,經營成果和現金流量的變化趨勢和變化規律的一種分析方法。可以通過拆線圖**資料的走向和趨勢,也可以通過環比、同比的方式對比較的結果進行說明。
如下圖所示:
3、特徵
看具體分析的內容是什麼,比如網際網路類,就是使用者畫像這類的需求,根據不同的使用者給使用者群打相應的標籤。
下圖是乙個示意圖:
資料探勘的結果一般有幾種展現形式:
1、**
最早的一種展現方式,交叉表的展示,如下圖:
2、圖表
相比於圖表更具展現力,讓人很直觀的就能看出資料的整體情況,如下圖:
3、決策樹
套用俗語,決策樹分類的思想類似於找物件。現想象乙個女孩的母親要給這個女孩介紹男朋友,於是有了下面的對話:
女兒:多大年紀了?
母親:26。
女兒:長的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等情況。
女兒:是公務員不?
母親:是,在稅務局上班呢。
女兒:那好,我去見見。
這個女孩的決策過程就是典型的分類樹決策。相當於通過年齡、長相、收入和是否公務員對將男人分為兩個類別:見和不見。假設這個女孩對男人的要求是:30歲以下、長相中等以上並且是高收入者或中等以上收入的公務員,那麼這個可以用下圖表示女孩的決策邏輯:
資料探勘是計算機學科中的乙個交叉研究領域,其研究方法與多個其他科學緊密相連,如:統計、機器學習、專家系統、資訊檢索、社會網路、自然語言處理和模式識別等等。
這裡簡單的介紹了一下資料探勘的概念以及資料探勘的展現形式和資料探勘到底能做一些什麼,在後面會繼續深和的介紹,以期和大家一起提高。
跟我一起資料探勘(18) 什麼是資料探勘(1)
前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...
跟我一起資料探勘(18) 什麼是資料探勘(1)
前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...
跟我一起資料探勘(4) 資料探勘涉及的技術
資料探勘需要掌握的內容包括 統計學 機器學習 模式識別 資料庫和資料倉儲 資訊檢索 視覺化 演算法 高效能計算等。下圖比較清楚的畫出了學習資料探勘需要掌握的知識內容 1 統計學 統計學中用到的主要術語 描述統計 descriptive statistics 研究資料收集 處理和描述的統計學方法。推斷...