一共分為2種:tunnel批量資料通道、datahub實時通道。
分類:阿里雲數加產品、開源產品兩類
1、maxcompute客戶端
是hadoop生態立的乙個資料匯入工具,依賴於hadoop環境。
提供圖形化的操作介面,可以通過拖拽控制項的方式,方便地定義資料傳輸的拓撲 ,功能全面。
datahub服務是阿里雲提供的流式資料(streaming data)服務,它提供流式資料的發布 (publish)和訂閱 (subscribe)的功能,讓您可以輕鬆構建基於流式資料的分析和應用。
datahub服務可以對各種移動裝置,應用軟體,**服務,感測器等產生的大量流式資料進行持續不斷的採集,儲存和處理。使用者可以編寫應用程式或者使用流計算引擎來處理寫入到datahub的流式資料比如實時web訪問日誌、應用日誌、各種事件等,並產出各種實時的資料處理結果比如實時圖表、報警資訊、實時統計等。
其中的幾項外掛程式都是開源的:
①資料庫上雲(非公網用datax,公網用dataworks)
②檔案上雲(datahub外掛程式,dataworks,tunnel upload命令)
①資料庫上雲(datax,dataworks,dts)
②檔案上雲(datahub外掛程式,dataworks,tunnel upload命令)
任務為業務庫資料同步到odps,且業務資料庫(脫敏庫)為內網,可考慮用datax(開源軟體)去實現。但是datax沒有視覺化介面,需要自己開發。
阿里雲匯入資料
maxcompute工具介紹
資料遷移的n種方式
hbase資料遷移方式
之前要hbase資料遷移,我使用export import方式,感覺很棒,鏈結如下 後來發現還有其他兩種方式,so就全部整理下吧。copytable方式 bin hbase org.apache.hadoop.hbase.mapreduce.copytable peer.adr zookeeper1...
Drbd大資料遷移方案
如果需要備份的資料分割槽5t 從硬碟10t分割槽 drbdadm create md data drbdadm up data drbdadm overwrite data of peer primary data 同步成功後在備份機器上檢查資料 drbdadm down data mount de...
大資料時代下的遷移學習 大資料時代下的遷移學習
大資料時代下的遷移學習 遷移學習不是機器學習的乙個模型或技術,它是機器學習中的一種 設計方 還有一些其他的設方 比如說主動學習。在後續的文章中,作者將解釋如何結合主動學習與遷移學習來最優地利用現有 或者新的 資料。從廣義上說,在利用外部資訊來提高效能或泛化能力時,可以使用遷移學習來實現一些機器學習的...