雲計算專案實戰之資料清洗與匯入模組

第一部分

：需求分析 •

將原始日誌做清洗，提取符合規範的資料 •

將使用者資訊儲存到使用者資訊表中

•將未爬去過的網頁資訊儲存到為爬去的網頁列表中

原始日誌格式

使用者id

暱稱訪問url

訪問開始時間

訪問結束時間

ip位址流量

屬性規範 •

ip位址不能為

127.0.0.1 •

ip位址不能為內網位址 •

使用者暱稱長度能不能超過40位

日誌表-log(hive)

欄位名使用者id

暱稱訪問url

訪問開始時間

訪問結束時間

ip位址

流量字段型別

string

bigint

userid!`!username!`!url!`!visit_begin_time

!`』

使用者表-

user_inof

(hbase)

rowkey

使用者id!~!~!暱稱

cf:empty

未爬取url表

-unknowurl

(hbase)

rowkey

urlcf:empty

已爬取url表

-knownurl

(hbase)

rowkey

urlcf:empty

第二部分：

**實現步驟

•建立hive表

•建立hbase的表

•編寫mapreduce程式

資料分析實戰之資料清洗

在資料分析過程中不論是時間還是功夫，資料清洗大概佔到了80 一資料質量的準則完全合一 1 完整性單條字段是否存在空值，統計的字段是否完善 2 全面性觀察某一列的全部數值，根據常識判斷該列是否有問題，比如資料定義單位標識數值本身。3 合法性資料的型別內容大小的合法性 4 唯一性資...

雲計算專案實戰之系統監控模組

第一部分需求分析需要對現有的系統的 cpu，硬碟，記憶體的使用情況進行監控達到一定使用程度時需要產生告警日誌記錄產生的告警存入到 hbase中第二部分技術點示例 arraylist rtn new arraylist runtime rt runtime.getruntime proc...

python資料清洗與預處理實戰

髒資料可以理解為帶有不整潔程度的原始資料。原始資料的整潔程度由資料採集質量所決定。髒資料的表現形式五花八門，如若資料採集質量不過關，拿到的原始資料內容只有更差沒有最差。髒資料的表現形式包括資料採集完後拿到的原始資料到建模前的資料 there is a long way to go.從資料分析的角度...

雲計算專案實戰之資料清洗與匯入模組

資料分析實戰之資料清洗

雲計算專案實戰之系統監控模組

python資料清洗與預處理實戰

相關推薦