接下來開始折騰ip資料,ip資料量比郵箱要大三個數量級,但是處理方式一樣,首先將ip全部轉成int型,接下來還是按照郵箱的做法把使用者按照所填的公司名稱分成不同的集合,計算方式也和郵箱的處理方式一樣,計算不同集合之間相同ip的對數m,依然是m越大就代表兩個集合所對應的公司名稱是同乙個公司的可能性越大。
(稍微有點不同的是郵箱資料量巨大,處理起來非常耗時,再加上做這個挖掘專案的時候我還不會用hadoop,不會寫mapreduce,著實費了老大的勁)
接下來用同樣地方式處理了使用者地理位置資料(uid對應經緯度),這個資料量也很大,比ip資料少乙個數量級,大體的處理方式同上,區別是地理位置資料有一定的誤差,所以需要首先將經緯度轉化為100公尺*100公尺的區塊,如果兩個人的經緯度資料同屬於乙個區塊,就認為兩人的地域重合,兩個集合之間地域重合的對數記做n。
這下我手頭上有3個特徵值了,分別是郵箱字尾重合對數k,ip相同對數m,地域重合對數n。
接下來就是最重要的資料,關係鏈,這是社交網路最重要的核心資料,據說社交網路的大資料80%都是基於關係鏈來做的。
資料探勘學習筆記四
1.星型結構 star schema 將事實表和維表進行連線 join 可以得到資料的值以及對資料的多維描述.2.雪花模型 snowflake schema 由 星型模型 演變來的,某些維表是規範化的,以便減少冗餘.3.星座模型 在星型模型的基礎上,具有多個事實表.4.雪暴模型 在星座模型的基礎上,...
資料探勘學習筆記(四)
資料的屬性 1.資料物件 資料物件又稱為樣本 例項 資料點 物件或元組。資料物件用屬性描述。資料表的行對應資料物件,列對應屬性。2.屬性 attributes 3.屬性型別 二元屬性 binary attribute 布林屬性 序數屬性 ordinal attribute 數值屬性 numeric ...
大資料公司挖掘資料價值的49個典型案例
對於企業來說,100條理論確實不如乙個成功的標桿有實踐意義,本文的主旨就是尋找 正在做 大資料的49個樣本。本文力圖從企業運營和管理的角度,梳理出發掘大資料價值的一般規律 一是以資料驅動的決策,主要通過提高 概率,來提高決策成功率 二是以資料驅動的流程,主要是形成營銷閉環戰略,提高銷售漏斗的轉化率 ...