從Oracle匯出資料並匯入到Hive

1、配置源和目標的資料連線

源（oracle）：

目標（hive 2.1.1)

系統自帶2.1.1的驅動jar包，如果該版本無法相容你的hive，可將對應版本hive驅動jar包匯入hhdi的lib目錄中。

自帶的jar包包括以下檔案：

hadoop-common-2.6.0.jar

hive-common-2.1.0.jar

hive-jdbc-2.1.0.jar

hive-metastore-2.1.0.jar

hive-serde-2.1.0.jar

hive-service-2.1.0.jar

hive-service-rpc-2.1.0.jar

hive-shims-2.1.0.jar

2、配置資料抽取任務，設定源和目標

源頁籤：

選擇源資料連線和源表，生成查詢語句，預設抽取該表中的所有欄位和所有記錄（20w條記錄）

目標頁籤：

目標頁籤選擇hive資料連線後，介面判斷如果是hive2型別，會自動更新為hive匯入的配置介面，在本地快取檔案下拉框中選擇「採用流方式上傳hdfs」，並定義好列分隔符，行分隔符一般不用修改。每批提交行數是指每多少行會回顯一次，資料量大時可相應調高。

系統會根據hive資料連線的配置和目標表名自動生成load data 語句，其中包含檔案上傳到的hdfs位址，這個位址使用者可以自行修改，也可以修改load data語句，增加適當的引數等等。需要注意的是，在hdfs上需要給這個hhdi的作業系統使用者分配讀寫的許可權，比如：hadoop fs -chmod -r 777 /user

注意：選擇hive作為目標匯入時，「字段對映」頁籤中的配置是無效的。

6、手工執行該抽取任務進行測試。伺服器效能和頻寬足夠的情況下，真實環境實測3gb資料匯入時間大約是1分半鐘左右

haohedi讓etl變得簡單，

從Oracle匯出資料並匯入到Hive

bcp匯入到mysql BCP 匯入匯出資料庫資料

Excel資料匯入到oracle

將資料匯入到Oracle中

從Oracle匯出資料並匯入到Hive

bcp匯入到mysql BCP 匯入匯出資料庫資料

Excel資料匯入到oracle

將資料匯入到Oracle中

相關推薦