sqoop是一款用於把關係型資料庫中的資料匯入到hdfs中或者hive中的工具,當然也支援把資料從hdfs或者hive匯入到關係型資料庫中。sqoop也是基於mapreduce來做的資料匯入。
sqoop的原理比較簡單,就是根據使用者指定的sql或者字段引數,從資料庫中讀取資料匯入到hive或者hdfs中。也支援基於資料庫匯出工具匯出,不過受限於資料庫的版本。
sqoop目前有兩個大版本,第乙個版本比較簡單,只能使用命令列
第二個版本引入了sqoop server,統一處理連線等資訊,並提供多種連線方式,還引入了許可權控制,另外規範了連線的各項配置。
沒啥說的,學東西,還得閱讀官方文件,鏈結參考這裡
大資料之sqoop sqoop的安裝及常用操作
sqoop安裝 安裝在一台節點上就可以了。1.上傳sqoop 2.安裝和配置 在新增sqoop到環境變數 將資料庫連線驅動拷貝到 sqoop home lib裡 3.使用 第一類 資料庫中的資料匯入到hdfs上 sqoop import connect jdbc mysql username roo...
大資料初接觸(筆記一)
簡單的說 就是短時間內快速的 產生海量的 多種多樣的 有價值的資料。主要做預算類的 比如天氣預報,車流量統計 明天阻不阻塞 管理元資料 索引 namenode 儲存的電腦 負責儲存源資料 datenode 儲存單元 預設是128m,乙個儲存單元的資料不能分成兩部分來儲存 block 備份 解決資料安...
大資料處理初窺
當處理大規模資料時,例如進行全文搜尋,近似文件搜尋,資料探勘等工作時,rdbms往往不能滿足我們的需求了。那麼我們應該怎麼做呢?一種解決方案是 利用批處理從rdbms中取出資料,建立索引伺服器再讓web應用程式通過rpc remote procedure call 或者web api http js...