第1章 華數大資料分析平台方案介紹
1.1 華數大資料平台總體架構
1.1.1 華數大資料平台應用架構
應用架構圖
1.1.2禾豐大資料平台技術架構
技術架構圖
根據我們實施建設大資料分析平台多年的經驗,結合禾豐牧業三層式數分析平台系統構架,通過資料採集(包括資料來源)、資訊儲存與管理(資料倉儲和hadoop)和資訊共享三部分技術來實現。 l資料採集:
1)結構化資料採集:禾豐牧業現有的資料主要來自於eas系統、青軟系統、電商平台和文字檔案都屬於結構化資料,大資料分析平台採用etl工具-kettle作為採集結構化資料的手段。etl(extract, transform, load)是建立大資料分析平台的重要組成部分,它將大資料分析平台中所需的資料按資料倉儲建立的方法每天或定期從各個業務系統中採集詳盡的業務資料,並根據各自的需求進行資料調整,資料遷移過程中需將原始資料進行抽取、清洗、合併和裝載。在此過程中必須保證資料的完備性和資料的一致性。當業務資料量過大,未避免mysql資料倉儲壓力過大,亦可將業務資料通過kettle遷移到hadoop平台的資料庫hbase中。
1)結構化資料儲存和管理:為方便其管理和滿足未來展現的效能要求,我們選擇以關係型資料庫mysql和hadoop的hbase資料庫共同承擔對結構化的資料的儲存和管理。以mysql建立傳統資料倉儲來實現對用於結構化資料和元資料的集中儲存與管理,並根據需求建立面向部門和主題的資料集市,**資料倉儲將被劃分為三個邏輯儲存區間: ods(operational data store)、dw(data warehourse)、dm(data mart):ods將存放各業務系統的原始資料,包括與原結構相同的業務資料以及經過初步整理後的業務資料;dw區域存放經過整理過的資料,是大資料分析平台真正的資料中心;dm區域存放各個應用系統(web應用、bi、olap、data mining等)所需的綜合資料。與此同時我們在mysql和hbase資料庫之間建立連線,利用kettle定時進行資料交換,倆種資料倉儲共同大資料應用提供資料支撐,從而實現資料共享,分攤壓力和資料備份的目的。
大資料解決方案
原文 大資料解決方案 1 資料庫 垂直拆分 根據業務把錶放到不同的資料庫,解決表之間的io競爭 水平拆分 根據某種規則把單錶資料分成多張表儲存,解決單錶資料量大的問題 索引 根據業務場景建立合理的索引,如果資料量很小建議使用索引 300條以內 索引使用場景 動作描述 聚集索引 非聚集索引 主鍵列是 ...
高校大資料解決方案
數聯尋英發布首份 大資料人才報告 報告顯示,目前全國的大資料人才僅46萬,未來3 5年內大資料人才的缺口將高達150萬。但作為人才培養基地的高校領域,大多依賴於現有的it環境進行教學和科研工作,導致大資料教學創新性和實戰能力不足,教學內容與社會需求脫節。隨著科研人員的思維和行為模式在傳統學科的研究領...
共享汽車平台大資料風控解決方案
共享汽車大資料風控,是基於大資料api介面構建一套完善的風控體系,以此規避不合規的註冊使用者,讓共享汽車平台對共享經濟服務物件做到知根知底,規避連帶責任風險,讓共享經濟更安全。共享汽車平台大資料風控解決方案 1.註冊使用者身份核驗 基於身份證驗證介面 活體檢測介面 ocr影象識別技術,對註冊使用者的...