loader是實現fusioninsight hd與關係型資料庫、檔案系統之間互動資料和檔案的資料載入工具。基於開源sqoop研發,做了大量優化和擴充套件。提供視覺化嚮導式的作業配置管理介面;提供定時排程任務,週期性執行loader作業;在介面中可指定多種不同的資料來源、配置資料的清洗和轉換步驟、配置集群儲存系統等。
圖:loader的應用場景
通過loader,我們可以從關係型資料庫或檔案系統中把資料匯入hbase或者hive,hdfs中。反過來,loader也可以從hdfs和hbase、hive中匯出資料。
圖:loader在fusioninsight中的位置
fusioninsight hd提供大資料處理環境,基於社群開源軟體增強,安裝場景選擇業界最佳實踐;porter是fusioninsight hd的資料整合服務,提供與hadoop集群多種交換資料方式(包括loader,flume,sftp)及hadoop圖形介面(hue)。
loader是實現fusioninsight hd與關係型資料庫、檔案系統之間交換資料和檔案的資料載入工具。
圖:loader模組架構圖
模組說明:
名稱描述
loader client
loader的客戶端,包括webui和cli兩種互動介面。
loader server
loader的服務端,主要功能包括:處理客戶端請求,管理聯結器和元資料,提交mapreduce作業和監控mapreduce作業狀態等。
rest api
實現restful(http+json)介面,處理來自客戶端的請求。
job scheduler
簡單的作業排程模組,支援週期ing的執行loader作業。
transform engine
資料轉換處理引擎,支援字段合併、字串剪下、字串反序等。
execution engine
loader作業執行引擎,包含mapreduce作業的詳細處理邏輯。
submission engine
loader作業提交引擎,支援將作業提交給mapreduce執行。
job manager
管理loader作業,包括建立作業、查詢作業、更新作業、刪除作業、啟用作業、去啟用作業、啟動作業、停止作業。
metadata repository
元資料倉儲,儲存和管理loader的聯結器、轉換步驟、作業等資料。
ha manager
管理loader server程序的主備狀態,loader server包含2個節點,以主備方式部署。
作業用來描述將資料從資料來源經過抽取、轉換和載入至目的端的過程。包括資料來源位置及資料來源屬性、從源資料到目標資料的轉換規則、目標端屬性。
loader提供了諸多功能,用於管理與作業相關的操作。包括建立作業、匯入作業、匯出作業、遷移作業分組、批量刪除作業、啟動作業、停止作業、檢視作業歷史記錄、複製作業和刪除指定作業等功能。
髒資料:是指不符和loader轉換規則的資料。 loader提供了豐富的作用轉換規則,能將資料按照不同的業務場景進行轉換和清洗,轉換成目標資料結構,實際應用中,如果不需要轉換,可以不指定轉換規則。
loader提供了14中轉換運算元,描述如下:
長整型時間轉換:實現長整型數值與日期型別的互換。
空值轉換:將空值替換成指定值。
增加常量字段:生成常量字段。
隨機值轉換:生成羧基資料字段。
拼接轉換:拼接已有字段,生成新字段。
分割轉換:將已有字段,按指定分隔符,分割出新字段。
取模轉換:對已有欄位取模,生成新字段。
剪下字串:通過指定起止位置,擷取已有字串型別的字段,生成新字段。
el操作轉換:指定演算法,對字段值進行運算,目前支援的演算法有:md5sum、sha1sum、sha256sum和sha512sum等。
字串大小寫轉換:對已有的字串型別字典,切換大小寫,生成新字段。
字串逆序轉換:對已有的字串型別字段,做逆序變換,生成新字段。
字串空格清除轉換:對已有的字串型別字段,清除左右空格,生成新字段。
過濾行轉換:配置邏輯條件過濾掉含觸發條件的行。
更新域:當滿足某些條件時,更新欄位的值。
loader除了提供圖形化操作介面外,還體用了一套完整的shell指令碼,通過這些指令碼,可實現資料來源的增刪查改,作業的增刪查改、啟動作業、停止作業,檢視作業狀態,判斷作業是否正在執行等功能。
指令碼介紹如下:
以上內容為聽華為大資料培訓課程和大學mooc上廈門大學 林子雨的《大資料技術原理與應用》課程而整理的筆記。大資料技術原理與應用:
Loader技術原理
loader技術原理 1.什麼是loader 1.2.基於開源sqoop研發,做了大量優化和擴充套件。1.4.loader是實現fusioninsight hd與關係型資料庫 檔案系統之間交換資料和檔案的資料載入工具。提供視覺化嚮導式的作業配置管理介面 提供定時排程任務,週期性執行loader作業 ...
loader1 loader的配置和執行順序
配置單個loader請見上乙個檔案 陣列形式 let path require path module.exports resolveloader module 物件形式 let path require path module.exports resolveloader module 一般情況下,...
Loader的整體結構
loader 的整體結構。1 loader被bootsector載入到了baseofloader,偏移位址offsetofloader。純實體地址baseofloaderphyaddr。2loader的功能0 呼叫中斷,將得到的記憶體資訊,存入資料buf中。loader的功能1 載入kernel.b...