**
在資料探勘領域,的確是一小撮人在看一大堆人在裸奔,而那一小撮人都在互相看對方裸奔,所以,將來物物互聯的社會,這個必定是乙個趨勢也必將會成為現實。資料探勘興起於上世紀90年代,首先做的是沃爾瑪,慢慢的被挖掘發現,成為了一門興盛的學科。正是由於該學科的產生以及要解決問題的特殊性,資料探勘不僅僅要求的是技術,還要有一定的領域知識。
首先認清楚乙個領域存在的問題,其次如何將這個問題進行描述,再進一步如何將其描述成數學問題,接著是否可以有一定的資料供你研究,並根據資料集問題構建一定的模型,最後是能否真正的解決該問題。這就是資料探勘的基本流程。
所以,資料探勘不僅僅是一門科學,而且是一種指導解決問題的思路。目前流行的而且最稀缺的是跨界人才,跨界就等於價值。上述流程裡面就可以清楚的看到,面對乙個問題,技術僅僅是解決問題的手段,而真正需要的是如何對問題進行描述。
現在大致說一下資料探勘的基本方法,面對乙個完全陌生的資料,要去了解它,
熟悉它的屬性,知道它的內涵,明白它的分布,質量怎麼樣等等,然後在以上基礎上,需要做一些特徵工程,如特徵提取,主成分分析,聚類等等,再接著就是對其進行資料的選擇,就是選擇和主體最相關的資料
,我們不能拿肺結核的資料來分析心臟病,資料要有針對性,特定問題需要特定的資料進行支撐,雖然有時候,面對乙個完全陌生的資料,我們無法判斷哪些資料和我們真正的相關,那麼就只能構建一些能夠有效的或者比較鬆弛的模型,來容忍這些和主題不相關的雜訊點。最後就是針對已有的問題以及處理好的資料進行模型構建,驗證並解決模型。
以上是資料探勘過程中的一般流程,但是一般特定問題特定分析,熊老師一直在強調不要一上來就去套模型,先分析問題,這也是以前自己犯的錯誤,面對問題不要一味的追求模型的複雜性,要用的合理,合理就是做好的。
接下來是對大資料下的**模型,以前對**類的問題理解不是很清楚,這次藉著熊老師的思想,大概有乙個比較成熟的思想,但是也是比較基本的,所有**類問題可以由以下式子說明:a+h*b
其中a是基於大量資料的基本事實,即歷史資料,歷史的資料量越大,其值就越穩定,而b則是即時事件,也就是突發情況,具有多樣性、複雜性以及即時性等,這往往和具體的環境因素有關,而h則是引數,要把**做好,最重要的就是解決b,如何在歷史資料的情況下,對b有乙個更全面的認識,但是a也是非常重要的。以前對**的理解是,在大量的歷史資料裡面,尋找資料的特徵,也即找到最合適的a,卻沒有考慮到當前的突發情況b,這樣的**,往往沒有很好地普適性,因此,對顯示即時事件的建模,也是非常重要的,當然也是很難的。
當然,今天的收穫還有很多,人生就是資料探勘,生活中的方方面面都牽扯到資料探勘,如果找到很好的方法,也許對自己的生活會有乙個新的認識。
一 大資料概述
1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...
一 大資料概述
1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs 分布式儲存系統。yarn 資源排程。mapreduce 任務計算。hive 讓hadoop集群擁有關係型資料庫的sql體驗,本質是hadoop的乙個外掛程式,如果有統計,加減乘除等計算任務就會將...
資料探勘領域的十大挑戰問題
資料探勘 data mining,dm 又稱資料庫中的知識發現 knowledge discover in database,kdd 是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的 先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主...