商業價值高,但是這種價值需要在海量資料之上,通過資料分析與機器學習更快速的挖掘出來;
處理時效性高,海量資料的處理需求不再侷限在離線計算當中。
mapreduce、hdfs
namenode、datanode
jobtracker、tasktracker
yarn、resourcemanager、nodemanager
提交執行mapreduce示例程式;
開啟hadoop web介面,檢視job執行狀態,檢視job執行日誌。
知道hadoop的系統日誌在**。
知道sqoop(或者還有datax)是hdfs和其他資料來源之間的資料交換工具;
知道flume可以用作實時的日誌採集;
impala對記憶體的需求太大,沒有過多資源部署;
關於BI商業智慧型的「8大問」 一文讀懂大資料BI
這裡不再闡述商業智慧型的概念了,關於bi,就從過往的了解,搜尋以及知乎的一些問答,大家困惑的點主要集中於大資料與bi的關係,bi的一些技術問題,以及bi行業和個人職業前景的發展。這裡歸納成8個問題點,每個問題都做了精心的解答,希望能給大家帶來幫助。bi businessintelligence 即商...
一文讀懂資料結構之順序查詢
小結下目前的查詢演算法和排序演算法。查詢演算法 1 順序查詢 遍歷元素,逐個和要查詢的key比較 2 二分查詢 先排序,然後通過中間數來縮小查詢範圍。排序演算法 1 氣泡排序 相鄰元素挨個比,大的放到後邊,有點順序查詢的感覺。遍歷 2 選擇排序 從無序區中直接選擇乙個最小的元素 這個過程就是有點像冒...
一文看懂大資料領域的六年巨變
今年,作者打算將分析data eng的歸檔內容 這些歸檔可追溯到2013年1月 作為其個人專案,來析過去6年中的大資料的趨勢和變化。為此,作者抓取並清理了290多期內容 使用了python爬蟲 保留了與技術 新聞和發布公告相關的文章片段。接下來,他對文章片段進行了一些基本的自然語言處理並應用了一些基...