資料同步是每個大資料人都繞不開的工作,因為大資料的儲存元件太多了,資料常常因為各種需求需要從乙個地方導到另乙個地方,如果是資料量小,可能我們寫個普通的指令碼就可以完成,但是大資料的場景下,我們不得不借助一些工具來達到我們同步海量資料的目的。說實話 etl 工具實在是太多了,而且很多都可以滿足我們日常的資料同步需求,所以這裡不可能羅列所有的技術出來,主要是從場景的角度來說明,因為這一塊的內容,面試官更關注的是場景。
本篇面試內容劃重點:離線同步、增量同步、實時同步、資料預處理。
離線資料同步也叫做批量同步,是大資料非常常見的場景,資料來源一般為資料庫或者日誌檔案,針對這個場景只列舉兩個比較常用的同步元件:阿里開源的資料同步元件 datax、apache 的老牌專案 sqoop。它們功能相似,但是實現上有很大的區別。
datax
datax 目前的開源版本是單機多執行緒的版本,任務提交後 datax 會將提交的 job 分成多個小的 task(子任務),以便於併發執行,小 task 組成 taskgroup 以方便管理,具體的 task 任務是由執行緒來執行的,job 會監控並等待多個 taskgroup 模組任務完成,等待所有 taskgroup 任務完成後 job 成功退出。所以 datax 在設計上其實還是比較輕量級的,而且它的 reader 和 writer 的介面非常友好,很適合二次開發,由開發者自定義讀和寫的儲存介質。
SEO常用工具
seo常用工具 搜尋引擎抓取內容模擬器 可以模擬蜘蛛抓取指定網頁,包括text link keywords及description資訊等。頁面相似度檢測工具 檢驗兩個頁面的相似度 如果相似度達80 以上,將可能受到懲罰 sitemap 製作工具 中文 http www.xinqj.com sitem...
SQL 常用工具
在測試我們的系統時,需要向資料庫一次性插入128條記錄,而我們的配置工具的匯入匯出居然不支援 想想,也情有可原,需求就是這樣。手工輸入128條又太麻煩了,因此,我想到了bcp,之前在給同事導資料時也用過這個命令,但是當時看完幫助文件 導完資料後沒有做相應的記錄,又從頭看了遍文件,因此,決定把他記錄下...
開發常用工具
原型圖工具 omnigraffle 畫圖工具 sketch axure 匯出切圖 prepo 2x,3x,匯出外掛程式 壓縮 imageoptim 瀏覽器外掛程式 谷歌chrome瀏覽器http請求模擬外掛程式 postman 火狐http請求模擬外掛程式 httprequest 火狐http抓包外...