在確定關鍵性業務問題後,根據對映的資料探勘問題,來選擇原始業務資料集合。通常要理解業務資料的表結構和說明。
※需要注意的是在選擇資料之前,要確定目標的實驗單元,即資料的主題,或者粒度等。比如客戶,賬目就是不同的主題,但是都是從兩張表中抽取的。
※可以用視覺化,如直方圖,分布圖,統計圖(箱式圖)來檢視資料集的連續和離散字段,檢查可能出現的異常值,
null
值,空值等。
※字段離散值超過
25個值時,很難從中發現有用的模式。※
空值超過總體
98%的字段可以考慮刪除。
※抽取源字段時,考慮欄位間的關聯性,重複列等資訊
※資料量過大可以考慮抽樣,但要注意產生抽樣偏差
※對抽取轉換清洗工作進行歸檔,保留元資料。
※處理異常值,
null
值,空值的方法。
※還原資料來源中資料編碼的原意。
※決策樹和關聯規則比其他演算法要適合空值的資料情況。
這一步驟相當於
extraction
。
資料庫關聯是選擇外來鍵還是選擇在業務層處理?
本科學習資料庫的時候,書上明確的寫了對於多對多關係必須要建立外來鍵,可是最近在跟師兄做乙個b s架構的專案,發現所設計的資料庫表雖然是多對多關係但並沒有要求外來鍵,查了一下之後才發現目前的大型系統中 尤其是網際網路的大型專案 不會有外來鍵這種東西,在這裡總結一下以供今後學習。設計資料庫時是否採用外來...
如何選擇高精準IP位址定位資料提公升業務水平
一 為什麼準確度與一致性相加超過8星的資料是優質資料 為了方便大家使用優質ip位址定位資料,減少使用成本。在 如何驗證ip位址定位的準確率?這篇文章中,埃文科技提出了高質量ip定位資料的判斷標準 使用ip問問時獲取的定位資料準確度及一致性兩項指標相加大於等於8星即為優質ip位址定位資料,可以直接應用...
複習資料結構 排序(三) 選擇排序
選擇排序的核心是 每趟選擇最小的元素和首部交換。時間複雜度 o n 2 選擇排序是一種不穩定的排序,為什麼呢?因為不好處理相等兩個數的前後位置,舉個例子,序列5 8 5 2 9,我們知道第一遍選擇第1個元素5會和2交換,那麼原序列中2個5的相對前後順序就被破壞了,所以選擇排序不是乙個穩定的排序演算法...