近期手動搭建了一套hadoop系統,講**會和一些踩過的坑
首先是將公鑰在各個節點的authorized host之間同步,然後依次安裝hdfs,hive,sqoop等等。遇到的坑主要是sqoop抽數的時候會尋找乙個class檔案在tmp/sqoop下面會提示找不到這個class需要手動拷到目錄下
然後是hive的metastore互導,其實schematool就是使用了hive/script下的指令碼建立的資料庫,基本就是將原來的mysqldump出來然後依次執行各個公升級指令碼就可以了,然後更新dbs,sds當中的location。由於外部表的schema在hdfs上面所以直接查會找不到
其後就是安裝了zk,遇到的坑是配置了集群後啟動不了,後來發現是data目錄下面沒有加myid這個東西。總體來說zk的概念是有瞬態和固有節點,然後可以設定為遞增模式。server之間是靠cap同步的,client可以接入到server。可以同步一些東西,也可以做集群管理。
todo:研究kafka,研究zk的分布式鎖
專案感悟(1)
這段時間經歷了乙個醫院的專案,時間挺緊迫,由於自身的一些原因,工期拖延了。經過這段時間的鍛鍊,也發現了自己的許多不足,今天就先寫一部分,如下 1 不能很好的理解並貫徹領導的意圖。也許是沒有經歷過這種嚴格的鍛鍊,總是按照自己的方式來解決問題。導致總是跟領導的意見不同,沒辦法,只能照別人說的幹了,畢竟人...
系統設計感悟
author skate time 2012 07 26 系統設計感悟 總結以往教訓,以後再設計系統時注意點 首先考慮 系統不同的服務物件的定位,比如優先順序等 系統的考核指標定位 效能,穩定,擴充套件伸縮 再次設計系統時必須考慮 1.控制表的資料量,根據硬體配置給定閥值 如500w或1000w 如...
Hadoop學習筆記1 初識Hadoop
資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...