第一部分
:需求分析 •
將原始日誌做清洗,提取符合規範的資料 •
將使用者資訊儲存到使用者資訊表中
•將未爬去過的網頁資訊儲存到為爬去的網頁列表中
原始日誌格式
使用者id
暱稱訪問url
訪問開始時間
訪問結束時間
ip位址流量
屬性規範 •
ip位址不能為
127.0.0.1 •
ip位址不能為內網位址 •
使用者暱稱長度能不能超過40位
日誌表-log(hive)
欄位名使用者id
暱稱訪問url
訪問開始時間
訪問結束時間
ip位址
流量字段型別
string
string
string
string
string
string
bigint
userid!`!username!`!url!`!visit_begin_time
!`』
使用者表-
user_inof
(hbase)
rowkey
使用者id!~!~!暱稱
cf:empty
未爬取url表
-unknowurl
(hbase)
rowkey
urlcf:empty
已爬取url表
-knownurl
(hbase)
rowkey
urlcf:empty
第二部分:
**實現 步驟
•建立hive表
•建立hbase的表
•編寫mapreduce程式
資料分析實戰之資料清洗
在資料分析過程中不論是時間還是功夫,資料清洗大概佔到了80 一 資料質量的準則 完全合一 1 完整性 單條字段是否存在空值,統計的字段是否完善 2 全面性 觀察某一列的全部數值,根據常識判斷該列是否有問題,比如 資料定義 單位標識 數值本身。3 合法性 資料的型別 內容 大小的合法性 4 唯一性 資...
雲計算專案實戰之系統監控模組
第一部分 需求分析 需要對現有的系統的 cpu,硬碟,記憶體的使用情況進行監控 達到一定使用程度時需要產生告警日誌記錄 產生的告警存入到 hbase中 第二部分 技術點 示例 arraylist rtn new arraylist runtime rt runtime.getruntime proc...
python資料清洗與預處理實戰
髒資料可以理解為帶有不整潔程度的原始資料。原始資料的整潔程度由資料採集質量所決定。髒資料的表現形式五花八門,如若資料採集質量不過關,拿到的原始資料內容只有更差沒有最差。髒資料的表現形式包括 資料採集完後拿到的原始資料到建模前的資料 there is a long way to go.從資料分析的角度...