1)名稱錯誤
北京海定區世紀城:北京海淀區
2)全半形替換
」北京*餐飲****「改為」」北京*餐飲****「「
3)空格替換
海淀區世紀城金源時代商務中心 c座
4)資料補齊
樊城區建華路:出現這個位址,應該加上湖北省襄陽市。
a、做一張地區mapping表{省份、市、縣、鎮鄉},如果有郵編號,首先我們可以根據郵編號找到對應的地區,則匹配成功
b、如果沒有郵編號,則根據名字來匹,這種資料就要看這個區的名稱是不是有多個,找到相關模式匹配成功(區分不出來的,挑出來,再想辦法)
5)資料拆分,利於統計分析
北京市海淀區世紀城翠疊園10樓4單元:最好拆分成"北京市","海淀區","世紀城","翠疊園" ,"10樓","4單元"
6)怎麼處理資料庫不識別的字?
資料庫不識別的字,例如"虓" 在資料庫中為"?"
7)證件型別 :
id代表身份證,oth可能代表其他(other)
jz 代表什麼意思呢?
找到國家規定法定證件種類{身份證,學生證,工作證、士兵證、軍官證、護照和戶口本}
8)字段轉換:時間欄位的值轉換成統一的時間格式。"2011-11-18 7:08:30","2011-3-30 15:03:53" 統一轉換成時間格式 mysql 中用 str_to_date(version,'%y-%m-%d %k:%i:%s')
9)身份證號碼補錄:"130203790302***",再看一下出生日期「19790302」,則應該是"13020319790302***"。{以前老身份證應該年用的都是兩位嗎?}
10)將郵編號為空的資料補齊:根據位址資訊補還是根據身份證號前6位所對映出來的郵編。
11)將位址列中有公司名稱「海淀區世紀城金源時代商務中心**** 北京***傳播****」拆開成兩個字段。
12)時間欄位為空的,怎麼補齊這個資料?{這個欄位很關鍵}
13)怎麼來處理下面問題?
遇到多打了幾個字,需要替換:「北京市海淀區世紀城遠大園****1203號遭1「改為」「北京市海淀區世紀城遠大園****1203號「「
14)衍生資料(獲得更加多的資訊)
根據資料{手機號、郵箱},蒐集資訊,猜測使用者所在工作地,學歷等等
根據生日,計算出現在年齡。
根據身份證前6位,找到身份證所在地。{而位址列的位址更可能是工作出差位址}
根據開房時間,計算出開房時間段。{不知道一般哪個時間段開房的人很危險,呵呵}
根據身份證前6位找到老家的人,然後再看一下在北京開房的人,算出大概有多少人在北京開房的老鄉人數。
可計算出使用者開房時的年齡:開房時間-出生日期
根據所在公司,算出使用者所在行業
15)找出有價值使用者 {給使用者評級等等}
大資料處理平台與案例
大資料能夠在國內得到快速發展,甚至是國家層面的支援,最為重要的一點就是我們純國產大資料處理技術的突破以及跨越式發展。在網際網路深刻改變我們的生活 工作方式的當下,資料就成為了最為重要的資料。尤其是資料安全問題就更為突出,前階段的facebook使用者資料洩漏所引發產生的一系列問題,就充分的說明了資料...
Python 語法 程式 案例 資料
浮點 小數 科學記數法 e 可以方便視覺化看 複數 可以做量子力學 高精度 from decimal import getcontext getcontext prec 50 a decimal 1 decimal 3 列表 資料集合 可以存放任意資料型別。方便增刪改查 功能 建立,查詢,切片,迴圈...
python案例資料集 Python資料集切分例項
在處理資料過程中經常要把資料集切分為訓練集和測試集,因此記錄一下切分 data 資料集 test ratio 測試機占比 如果data為numpy.numpy.ndarray直接使用此 如果data為pandas.datframe型別則 return data train indices data ...