玩轉大資料系列之一資料採集與同步

資料的採集和同步，是先將資料從裝置、或者本地資料來源採集、同步到阿里雲上，然後在阿里雲上對資料進行分析和處理，最終完成您的業務要求。本文向您介紹阿里雲各產品的資料採集和同步的操作實戰文章，您可以根據您使用阿里雲產品，檢視相應的文件教程。

關於資料採集，dataworks專門有乙個模組叫做資料整合，是阿里巴巴集團對外提供的穩定高效、彈性伸縮的資料同步平台。致力於提供複雜網路環境下、豐富的異構資料來源之間資料高速穩定的資料移動及同步能力。詳細介紹請參見資料整合概述。

maxcompute

hadoop資料遷移maxcompute

json資料從oss遷移到maxcompute最佳實踐

json資料從mongodb遷移到maxcompute最佳實踐

dataworks

新增日誌服務（loghub）通過資料整合投遞資料

新增elasticsearch通過資料整合匯入資料

資料整合最佳實踐—otsstream配置同步任務

rds遷移到maxcompute實現動態分割槽最佳實踐

elasticsearch

使用dataworks實現hadoop與elasticsearch資料同步

使用dataworks實現maxcompute與elasticsearch資料同步

阿里雲上資料匯入阿里雲es（離線）

同步 mysql 資料庫到 elasticsearch 中並進行搜尋分析

analyticdb

通過dts實時同步rds for mysql資料到analyticdb

使用資料整合遷移

使用kettle將本地資料匯入分析型資料庫

datahub

資料同步dts將rds資料實時傳輸至datahub

流資料同步dataconnector

函式計算作為datahub後端服務

擴容縮容merge/split

datahub具有服務彈性伸縮功能，使用者可根據實時的流量調整shard數量，來應對突發性的流量增長或達到節約資源的目的。

玩轉大資料系列之二：資料分析與處理

玩轉大資料系列之三：資料包表與展示

玩轉大資料系列之四：搜尋服務

玩轉大資料系列之一 資料採集與同步