現在已經成為大資料專業的研究生了,但是對於很多概念還是有點模糊,在網上查了一些資料,感覺略有心得,再次整理一下
大資料:大資料是相當於傳統資料的概念,大資料的「大」體現在資料的 數量大,種類多,產生快,處理快,價值高等特點,大資料的學習路線又可以分為兩種,一種是大資料 開發\分析\應用,以時下熱門的hadoop和spark為主;另外一種是大資料的研發工作,也就是開發出大資料處理需要的資料庫,統計平台,研發新的機器學習的演算法等等。總之,分析是為了追求資料結果的,研發是為了更好的去分析。但是想在大資料領域學習下去,兩種都必須有所涉及,但是學習要有側重其中一種。
資料探勘:
從資料中提取潛在的、有價值的資訊。這是乙個比較寬泛的概念,使用機器學習演算法來對大資料進行分析,找到有用的資訊可以是資料探勘,你從一張excel表中仔細觀察,終於找到了幾個有用的規律,這也算是資料探勘。資料探勘可以看成是對大資料處理的一種方式,但是大資料的處理方式並不止資料探勘。
機器學習:機器學習簡單的講就是我們給計算機輸入一些資料後,它必須做一些事情,也就是通過學習我們輸入的資料,計算機要做出相應的反應,展示我們需要看到的結果。而且學習資料的過程是明確了,計算機通過我們設計的各種學習模式去學習資料,並通過從資料中學到的資訊對計算機自身進行校正,以便於更好的學習,整個過程是迭代的。只要是採用了這種迭代並不斷逼近的策略,一般都可以歸到機器學習的範疇。要學習機器學習,各種學習模式是必須會的。之所以大資料和機器學習經常一起出現,是因為我們會使用機器學習這個工具做大資料的分析工作,也就是說機器學習可以看做是我們做大資料分析的乙個比較好用的工具,但是大資料分析的工具並不止機器學習,機器學習也並不只能做大資料分析。
深度學習:深度學習就是一種比較火的機器學習演算法,是基於神經網路發展起來的。
雲計算:
簡而言之,就是將計算任務轉移到伺服器端,使用者端只需要個顯示器就可以。
大資料時代的機器學習
張長水 大資料時代的機器學習 vs 傳統機器學習 從機器學習角度看,大資料 指的是資料量大,資料本身不夠精確。資料混雜,資料自然產生。機器學習對大資料的處理的兩個挑戰 大資料時代給機器學習帶來新的機遇 於劍 從認知角度看待大資料 該報告從認知角度分析資料與知識的聯絡。眼下機器學習的知識主要是概念,傳...
大資料和雲計算的關係
1 什麼是大資料 ibm提出了大資料的5v特徵 volume 大量 velocity 高速 variety 多樣 value 價值 veracity 真實性 個人理解 大資料是在資訊資料 時代,為了更經濟地從高頻率獲取的 大容量的 不同結構和型別的資料中獲取價值,而設計的新一代技術架構,是必須的思想...
機器學習和概率統計的關係
機器學習是乙個比較寬泛的概念,主要包括有監督學習,無監督學習,強化學習等,每個分類又有很多不同的演算法,在使用時需要根據不同的場景進行選擇,這個將會在後續的部落格中涉及,這裡就不展開敘述。現在的機器學習主要都是基於對現有樣本的觀測分析 統計 然後再對未知樣本的 概率 我自己乙個不嚴謹的說法就是機器學...