通過csv檔案形式進行資料入倉的流程及指令碼

2021-08-28 23:38:27 字數 711 閱讀 4900

1、將資料抽取插入到csv檔案,寫入到資料庫中

2、將csv檔案插入到目標資料庫(這裡以插入到postgresql為例):

首先在伺服器上寫連線pg資料指令碼,

在普通使用者home目錄下建立檔案:.pgpass,內容為ip:埠號:schema:name:pasdword

在檔案目錄下建立資料夾例如:mysql2gp,並在資料夾下建立cfg目錄,用來存放配置指令碼,在mysql2gp目錄下建立檔案write_to_gp111.sh ,內容為:

date

psql -d gsdw -h 資料庫ip -p 埠號 -u 使用者名稱 -f /home/gens/mysql2gp/cfg/$1

date

在cfg建立寫入資料庫指令碼***xx.sql:

truncate table table_name;

\copy table_name(欄位名稱) from 『/data/******xx.csv』 delimiter 『|』 csv header;

執行指令碼 sh write_to_gp111.sh ***xx.sql即可寫入資料庫,注意:如果資料質量不高,可能會報錯,具體問題具體分析

3、新增排程任務(azkaban排程器)例如:

type=command

command= su - gens -c 「sh /home/gens/mysql2gp/write_to_gp111.sh ******.sql」

通過Mysql資料檔案進行資料庫還原

一直沒有做mysql資料庫的備份,最近伺服器壞了,怎麼樣都啟不了,檔案倒是能夠拿回來,現在就只能通過資料庫的檔案進行還原了,剛開始的我的操作是在本地建立乙個相同的資料庫,然後將原來資料庫的檔案給拷貝過去替換現在資料庫的檔案,通過show tables命令倒是能夠看到其中所有的表,但是操作表如查詢的時...

通過 UML OO 進行資料庫設計

程式開發中使用 的語言和方式,自然的養成了 的思想,那麼在設計資料庫datamodel時,完成可以繼續發揚光大。用oo的方式發現物件,發現class,找到class之間的關係,完成uml的類圖。結合這個類圖,根據一對一,一對多,和多對多的,物件關係。來設計資料的datamodel 這個過程很清楚也很...

通過去重進行資料清洗

檢視seqno列都有哪些值 df seqno unique 檢視唯一的值duplicated方法duplicated用於從上到下比較指定某一列的值,當這個值第一次出現時,返回false,當這個值和上乙個比一樣時,返回true drop duplicates去重複 drop duplicates方法將...