電商推薦系統專案工作總結

2021-09-01 05:33:08 字數 1280 閱讀 4498

< 1 >. 資料集中是否存在缺失值,處理缺失值。

處理資料集中缺失值的策略大概分為刪除,補齊和忽略三類。組刪除:將含有缺失值的屬性特徵刪除(電商推薦中一般不採取此方法,具體看業務場景);忽略:補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備資訊進行補齊處理的同時,我們或多或少地改變了原始的資訊系統。而且,對空值不正確的填充往往將新的雜訊引入資料中,使挖掘任務產生錯誤的結果。因此,在許多情況下,我們還是希望在保持原始資訊不發生變化的前提下對資訊系統進行處理。直接在包含空值的資料上進行資料探勘。這類方法包括貝葉斯網路和人工神經網路等。(此部分描述借鑑);補齊處理包括特殊值填充,回歸值填充等,下面針對電商資料集進行簡單舉例:

(1)將連續值離散化,利用區間值的眾數,中位數或者平均值來填充特徵屬性中缺失的部分(年齡,月收入等特徵)。

(2)連續值丟失,例如身高等,可以利用其他特徵訓練模型回歸**出較為合理的值來填充。(其他策略不一一介紹)

總結:資料集中可能會存在多個特徵都存在缺失值的情況,因此需要大量的嘗試,不同的特徵利用多種處理方式,然後利用交叉驗證找出較為合理的組合處理方式。(經驗值不能在實際操作中直接利用,資料集和模型的不同處理的方式也不同)

< 2 >.資料集中各種特徵數值的處理。

(1).數值型:調整特徵的數量級/幅度調整/歸一化/標準化;統計數值的max,min,mean,std等資訊; 離散化連續值特徵;每個類別對應的變數統計值histogram(分布狀況)。

(2)類別性:one-hot編碼;啞變數等

(3)時間型:時間戳特徵能夠很好挖掘的話可以有效提高模型的效果。

(4)刪除特徵中的噪音點和離群點(可利用回歸或者分箱的方法找到此類資料點)。

< 3 > 過濾資料,顧名思義,過濾掉用不到的特徵資料,保留有用資訊。

< 4 > 將有價值的資料來源重新組合,提取成為新的特徵資訊。

< 5 > 刪除無行為互動的商品和使用者。

< 6 > 刪除瀏覽量很大,但是購買量極少的使用者(惰性使用者或者爬蟲使用者)

二. 資料的理解與分析

< 1 > 掌握各個特徵的含義。

< 2 > 觀察資料特點,是否可用來建模。

< 3 > 視覺化展示,便與分析。

< 4 > 觀察資料的滯後性,使用者的行為特徵與時間等因素的關係(比較細緻的做法)。

三. 特徵提取(工程)四. 建立模型

< 1 > 使用機器學習演算法進行選擇和召回。

< 2 > 資料集的切分。

< 3 > 演算法引數的設定以及調優(重點)。

電商推薦系統 資料載入

版本 scala2.11.8 spark 1.6.2 bin hadoop2.6 hadoop2.6 pom 4.0.0 com.kejin dataload 1.0 snapshot org.apache.spark spark core 2.11 org.apache.spark spark s...

11 4工作總結 系統安裝

上午 1.李廷斌,孫工,畢工,張嵩 網線製作 橙白 橙 綠白 藍 藍白 綠 棕 白棕 製作竅門 剪的時候注意短一些,四根線分別剝開,按順序,掐線時別用鋒利的頭剪線,把皮去掉就好,水晶頭有金屬東西的麵算正面,往裡壓線的時候注意外皮要被壓入一部分,防止後面用的時候脫落。會議 新瑪特與五徵集團就一 專案的...

wap問答系統工作總結

一直想找個鍛鍊自己的機會,但是又很恐慌,怕自己能力太差,把握不住機會,把事情弄糟。終於,要做wap問答系統了,本來說是幾個人一塊兒做,我分析了下頁面,發現共同的部分還是比較多的,有點想法,要不我接過來做做,看布局不是很難,但自己也沒有很大把握,一直在猶豫,糾結。終於鼓起勇氣,提出我來做,雖然底氣不足...