1、配置源和目標的資料連線
源(oracle):
目標(hive 2.1.1)
系統自帶2.1.1的驅動jar包,如果該版本無法相容你的hive,可將對應版本hive驅動jar包匯入hhdi的lib目錄中。
自帶的jar包包括以下檔案:
hadoop-common-2.6.0.jar
hive-common-2.1.0.jar
hive-jdbc-2.1.0.jar
hive-metastore-2.1.0.jar
hive-serde-2.1.0.jar
hive-service-2.1.0.jar
hive-service-rpc-2.1.0.jar
hive-shims-2.1.0.jar
2、配置資料抽取任務,設定源和目標
源頁籤:
選擇源資料連線和源表,生成查詢語句,預設抽取該表中的所有欄位和所有記錄(20w條記錄)
目標頁籤:
目標頁籤選擇hive資料連線後,介面判斷如果是hive2型別,會自動更新為hive匯入的配置介面,在本地快取檔案下拉框中選擇「採用流方式上傳hdfs」,並定義好列分隔符,行分隔符一般不用修改。每批提交行數是指每多少行會回顯一次,資料量大時可相應調高。
系統會根據hive資料連線的配置和目標表名自動生成load data 語句,其中包含檔案上傳到的hdfs位址,這個位址使用者可以自行修改,也可以修改load data語句,增加適當的引數等等。需要注意的是,在hdfs上需要給這個hhdi的作業系統使用者分配讀寫的許可權,比如:hadoop fs -chmod -r 777 /user
注意:選擇hive作為目標匯入時,「字段對映」頁籤中的配置是無效的。
6、手工執行該抽取任務進行測試。伺服器效能和頻寬足夠的情況下,真實環境實測3gb資料匯入時間大約是1分半鐘左右
haohedi讓etl變得簡單,
bcp匯入到mysql BCP 匯入匯出資料庫資料
使用 bcp 將資料庫遷移到 azure sql database 所有 都是在本機sql上執行 先開啟cmdshell exec sp configure show advanced options 1 goreconfigure goexec sp configure xp cmdshell 1...
Excel資料匯入到oracle
excel資料匯入到oracle 第一步 將要匯入的excel檔案開啟,選擇 另存為 在檔案型別那裡選擇 文字.txt 後確定儲存 第二步 開啟記事本,編寫下列的內容 注釋 1 控制檔案標識 2 剛才由excel檔案轉化過來的檔案的路徑 3 向oracle的資料表t network agent ba...
將資料匯入到Oracle中
1.create table people age int,id int 2.建立資料檔案peopledate.txt.資料為 20,1 30,2 3.建立命令檔案 loaddata.ctl 內容為 sqlldr userid dbname dbpasswd control loaddata.ctl...