sqoop產生背景及概述

2021-09-06 17:26:31 字數 1032 閱讀 1935

sqoop產生背景

多數是用hadoop技術處理大資料業務的企業有大量的資料儲存在傳統的關係型資料庫(rdbms)中;由於缺乏工具的支援、對hadoop和傳統資料庫系統中的資料進行相互傳輸是一件十分困難的事情;sqoop就是乙個在rdbms和hadoop之間進行資料傳輸的專案;

sqoop概述

sqoop是hive/hdfs/hbase與關聯式資料庫之間 匯入和匯出工具

1)連線傳統關係型資料庫和hadoop的橋梁;

把關係型資料的資料匯入到hadoop與其相關的系統(如hbase、hive)中;

把資料從hadoop系統裡抽取並匯出到關係型資料庫中;

2)利用mapreduce加快資料傳輸速度;

3)批處理方法進行資料傳輸;

為什麼選擇sqoop

1)高效、可控地利用資源:任務並行

2)資料型別對映與轉換:可自動轉換,使用者也可自定義

3)支援多種資料庫:mysql、oracle、postgresql

sqoop的資料來源常用的有兩種

1)文字檔案,如日誌檔案

2)關係型資料庫

sqoop-import : 從關係型資料庫抽取資料到hdfs/hive/hbase

sqoop-export : 從hdfs將資料匯出到關係型資料庫

在匯入或者匯出的時候使用到的表名或者欄位名推薦用大寫

說明:sqoop的匯入匯出操作的出發點是hdfs/hive/hbase等,而不是關係型資料庫

後續sqoop案例操作以oracle自帶的emp和dept表做為資料來源

VXLAN技術產生背景

1 vlan數量不足 在資料中心網路中,虛擬機器是通過vlan來劃分流量的,不同的虛擬機器被劃分到不同的vlan中。實際上可分配的vlan數量為4094,這個數字在某些大規模資料中心內有可能是不夠的。另外傳統的vlan無法滿足網路動態調整的需求,網路的擴容和調整都非常困難。2 二層網路邊界限制 二層...

Yarn產生的歷史背景

一 什麼是hadoop 二 hadoop中的主要專案 三 參考書籍 hadoop yarn權威指南 四 hadoop演進的四大階段 五 階段0 ad hoc集群時代 六 階段1 hadoop on demand 七 hadoop on demand的架構 八 hod的特點和優勢 九 hod的缺點 十...

kudu教程(二) 產生背景

kudu教程 二 產生背景 1 功能上的空白 hadoop生態系統有很多元件,每乙個元件有不同的功能。在現實場景中,使用者往往需要同時部署很多hadoop工具來解決同乙個問題,這種架構稱為混合架構 hybrid architecture 比如,使用者需要利用hbase的快速插入 快讀random a...