Loader技術原理

2021-08-20 10:41:45 字數 2583 閱讀 9441

loader是實現fusioninsight hd與關係型資料庫、檔案系統之間互動資料和檔案的資料載入工具。基於開源sqoop研發,做了大量優化和擴充套件。提供視覺化嚮導式的作業配置管理介面;提供定時排程任務,週期性執行loader作業;在介面中可指定多種不同的資料來源、配置資料的清洗和轉換步驟、配置集群儲存系統等。

圖:loader的應用場景

通過loader,我們可以從關係型資料庫或檔案系統中把資料匯入hbase或者hive,hdfs中。反過來,loader也可以從hdfs和hbase、hive中匯出資料。

圖:loader在fusioninsight中的位置

fusioninsight hd提供大資料處理環境,基於社群開源軟體增強,安裝場景選擇業界最佳實踐;porter是fusioninsight hd的資料整合服務,提供與hadoop集群多種交換資料方式(包括loader,flume,sftp)及hadoop圖形介面(hue)。

loader是實現fusioninsight hd與關係型資料庫、檔案系統之間交換資料和檔案的資料載入工具。

圖:loader模組架構圖

模組說明:

名稱描述

loader client

loader的客戶端,包括webui和cli兩種互動介面。

loader server

loader的服務端,主要功能包括:處理客戶端請求,管理聯結器和元資料,提交mapreduce作業和監控mapreduce作業狀態等。

rest api

實現restful(http+json)介面,處理來自客戶端的請求。

job scheduler

簡單的作業排程模組,支援週期ing的執行loader作業。

transform engine

資料轉換處理引擎,支援字段合併、字串剪下、字串反序等。

execution engine

loader作業執行引擎,包含mapreduce作業的詳細處理邏輯。

submission engine

loader作業提交引擎,支援將作業提交給mapreduce執行。

job manager

管理loader作業,包括建立作業、查詢作業、更新作業、刪除作業、啟用作業、去啟用作業、啟動作業、停止作業。

metadata repository

元資料倉儲,儲存和管理loader的聯結器、轉換步驟、作業等資料。

ha manager

管理loader server程序的主備狀態,loader server包含2個節點,以主備方式部署。

作業用來描述將資料從資料來源經過抽取、轉換和載入至目的端的過程。包括資料來源位置及資料來源屬性、從源資料到目標資料的轉換規則、目標端屬性。

​ loader提供了諸多功能,用於管理與作業相關的操作。包括建立作業、匯入作業、匯出作業、遷移作業分組、批量刪除作業、啟動作業、停止作業、檢視作業歷史記錄、複製作業和刪除指定作業等功能。

髒資料:是指不符和loader轉換規則的資料。

​ loader提供了豐富的作用轉換規則,能將資料按照不同的業務場景進行轉換和清洗,轉換成目標資料結構,實際應用中,如果不需要轉換,可以不指定轉換規則。

loader提供了14中轉換運算元,描述如下:

長整型時間轉換:實現長整型數值與日期型別的互換。

空值轉換:將空值替換成指定值。

增加常量字段:生成常量字段。

隨機值轉換:生成羧基資料字段。

拼接轉換:拼接已有字段,生成新字段。

分割轉換:將已有字段,按指定分隔符,分割出新字段。

取模轉換:對已有欄位取模,生成新字段。

剪下字串:通過指定起止位置,擷取已有字串型別的字段,生成新字段。

el操作轉換:指定演算法,對字段值進行運算,目前支援的演算法有:md5sum、sha1sum、sha256sum和sha512sum等。

字串大小寫轉換:對已有的字串型別字典,切換大小寫,生成新字段。

字串逆序轉換:對已有的字串型別字段,做逆序變換,生成新字段。

字串空格清除轉換:對已有的字串型別字段,清除左右空格,生成新字段。

過濾行轉換:配置邏輯條件過濾掉含觸發條件的行。

更新域:當滿足某些條件時,更新欄位的值。

loader除了提供圖形化操作介面外,還體用了一套完整的shell指令碼,通過這些指令碼,可實現資料來源的增刪查改,作業的增刪查改、啟動作業、停止作業,檢視作業狀態,判斷作業是否正在執行等功能。

指令碼介紹如下:

以上內容為聽華為大資料培訓課程和大學mooc上廈門大學 林子雨的《大資料技術原理與應用》課程而整理的筆記。

大資料技術原理與應用

Loader技術原理

loader技術原理 1.什麼是loader 1.2.基於開源sqoop研發,做了大量優化和擴充套件。1.4.loader是實現fusioninsight hd與關係型資料庫 檔案系統之間交換資料和檔案的資料載入工具。提供視覺化嚮導式的作業配置管理介面 提供定時排程任務,週期性執行loader作業 ...

loader1 loader的配置和執行順序

配置單個loader請見上乙個檔案 陣列形式 let path require path module.exports resolveloader module 物件形式 let path require path module.exports resolveloader module 一般情況下,...

Loader的整體結構

loader 的整體結構。1 loader被bootsector載入到了baseofloader,偏移位址offsetofloader。純實體地址baseofloaderphyaddr。2loader的功能0 呼叫中斷,將得到的記憶體資訊,存入資料buf中。loader的功能1 載入kernel.b...