分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!
1、mapreduce是處理hdfs上的資料
2、mapreduce的思想**是pagerank(搜尋排名),原理是進行分布式計算。
如上圖,網頁跳轉中,訪問網頁3的次數最多,也就是權重最大的為網頁3。比如京東、**中給推薦的商品,就是近期訪問的比較多的商品。
mapreduce的思想是把乙個大任務拆分成多個小任務,再把小任務的結果彙總,得到最後的結果。
3、資料都是歷史資料、資料已經存在(hdfs)
1、特點:資料源源不斷地產生,不停處理資料
2、例子:自來水廠
3、框架:apache storm、spark streaming
4、格式:storm jar jar檔案 任務的類名 任務的別名
storm jar storm-starter-topologies-1.0.3.jar.jar org.apache.storm.starter.wordcounttopology mywc
1、配置hadoop home
2、hadoop.dll複製到c:\windows\system32
3、配置環境變數
hadoop_home
%hadoop_home%/bin配置到path裡
4、推薦:mrunit(mapreduce unit),類似junit
對hadoop的認識只停留在理論上,更多的操作在精力和時間的允許下有待實踐。
給我老師的人工智慧教程打call!
hadoop大資料與hadoop雲計算
hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...
專案三 大資料離線分析平台
具體匯入方法使用下面的連線 注意修改後需要重新部署到tomcat中 隨意點點 用來寫後台的兩種資料埋點 然後測試 hbase test 上述做完就是 資料通過編寫資料埋點 nginx伺服器上面了 現在我們要做的就是通過flume讀取nginx上面的資料存到hdfs source exec chann...
《Hadoop與大資料探勘》 1 2 大資料平台
大資料平台有哪些呢?一般認為大資料平台分為兩個方面,硬體平台和軟體平台。硬體平台一般如open stack amazon雲平台 阿里雲計算等,類似這樣的平台其實做的是虛擬化,即把多台機器或一台機器虛擬化成乙個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟體平台則是大家經常聽到的,如had...