面試現在這家公司的時候,領導說有意讓我接觸大資料這塊的專案,當時可把我高興的。雖然來這快兩年了也沒接觸大資料,詞倒是聽了幾個。hadoop念著挺順口,到底是個什麼東西呢。搜尋了一波,總結如下。
hadoop是什麼?
hadoop就是乙個分布式計算的解決方案.
能看懂嗎。看不懂的繼續往下看看
hadoop能做什麼?
這就是雲計算。如果不懂還有更簡單的例子
比如 1億個 1 相加 得出計算結果, 我們很輕易知道結果是 1億.但是計算機不知道,那麼單台計算機處理的方式做一億次的迴圈,每次結果+1。
那麼分布式的處理方式則變成 我用 1萬台 計算機,每個計算機只需要計算 1萬個 1 相加 ,然後再有一台計算機把 1萬台計算機得到的結果再相加
從而得到最後的結果.
理論上講, 計算速度就提高了 1萬倍. 當然上面可能是乙個不恰當的例子.但所謂分布式,大資料,雲計算 大抵也就是這麼回事了.
hadoop擅長日誌分析,facebook、**搜尋中的 自定義篩選都使用的hive。不僅如此,twitter、yahoo也是用到pig技術。
ps:
hive是hadoop生態圈中及其重要的乙個元件。hadoop生態的資料是儲存在hdfs中,而hive能對其中的資料進行分析和管理。使用者通過命令列或jdbc可使用hive進行增刪改查等資料庫操作。
想更加了解hadoop的朋友可以多了解hive、pig、hbase,這篇文章可以看下,相信會有很大幫助
hadoop的hive、pig、hbase
此文摘自:
通俗易懂的了解hadoop
Hadoop Hadoop 傳遞引數
寫mapreduce程式通常要傳遞各種各樣的引數,選擇合適的方式來傳遞引數既能提高工作效率,也可以避免bug的產生。根據引數的大小,可以粗略的分為以下幾種。最直接的方式就是使用configuration的各種set方法,對於基本資料型別都有很好的支援,比如傳遞kmeans聚類演算法的中心點個數。正確...
hadoop hadoop的各種版本
選型由於apache hadoop是開源的,任何人可以對其修改並作為開源或者商業的產品,所以出現很多發行版本,例如華為發行版 cloudera發行版 cdh 等。hadoop三大發行版本 apache cloudera hortonworks。apache版本最原始 最基礎 的版本,對於入門學習最好...
HADOOP hadoop 8088埠無法訪問
參考 hadoop成功啟動後 ip 50070可以訪問到頁面,但是ip 8088提示無法訪問該 問題出在hadoop資料夾下 etc hadoop 目錄下的配置檔案 yarn site.xml 修改yarn site.xml檔案,將其中的配置修改為 yarn.resourcemanager.host...