感謝大家長期以來對專欄的關注,最近工作比較忙,好久沒更新了。接下來的幾篇文章想和大家分享下關於使用者畫像的一些東西。今天我們先從使用者畫像的標籤權重開始聊起吧。
使用者畫像:即使用者資訊標籤化,通過收集使用者社會屬性、消費習慣、偏好特徵等各個維度資料,進而對使用者或者產品特徵屬性的刻畫,並對這些特徵分析統計挖掘潛在價值資訊,從而抽象出乙個使用者的資訊全貌,可看做是企業應用大資料的根基,是定向廣告投放與個性化推薦的前置條件。
上面的例子是使用者畫像一些應用場景。而本文主要分享的是打在使用者身上標籤的權重是如何確定的。
1、基於tf-idf演算法的權重歸類
tf-idf演算法是什麼思想,這裡不做詳細展開,簡而言之:乙個詞語的重要性隨著它在該文章出現的次數成正比,隨它在整個文件集**現的次數成反比。
比如說我們這裡有3個使用者和4個標籤,標籤和使用者之間的關係將會在一定程度上反應出標籤之間的關係。這裡我們用w(p , t)表示乙個標籤t被用於標記使用者p的次數。tf(p , t)表示這個標記次數在使用者p所有標籤中所佔的比重,公式如下圖:
對上面的圖來說,使用者1身上打了標籤a 5個,標籤b 2個,標籤c 1個,那麼使用者1身上的a標籤tf=5/(5+2+1) 。
相應的idf(p , t)表示標籤t在全部標籤中的稀缺程度,即這個標籤的出現機率。如果乙個標籤t出現機率很小,並且同時被用於標記某使用者,這就使得該使用者與該標籤t之間的關係更加緊密。
然後我們根據tf * idf即可得到該使用者該標籤的權重值。到這裡還沒結束,此時的權重是不考慮業務場景,僅考慮使用者與標籤之間的關係,顯然是不夠的。還需要考慮到該標籤所處的業務場景、發生的時間距今多久、使用者產生該標籤的行為次數等等因素。我用個圖總結下:
關於時間衰減的函式,根據發生時間的先後為使用者行為資料分配權重。
時間衰減是指使用者的行為會隨著時間的過去,歷史行為和當前的相關性不斷減弱,在建立與時間衰減相關的函式時,我們可套用牛頓冷卻定律數學模型。牛頓冷卻定律描述的場景是:乙個較熱的物體在乙個溫度比這個物體低的環境下,這個較熱的物體的溫度是要降低的,周圍的物體溫度要上公升,最後物體的溫度和周圍的溫度達到平衡,在這個平衡的過程中,較熱物體的溫度f(t)是隨著時間t的增長而呈現指數型衰減,其溫度衰減公式為:
f(t)=初始溫度×exp(-冷卻係數×間隔的時間)
其中α為衰減常數,通過回歸可計算得出。例如:指定45分鐘後物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。
2、基於相關係數矩陣的權重歸類
這個相關係數矩陣聽title挺困難,其實道理十分簡單。舉個例子:使用者1身上打上了5個a標籤、2個b標籤、1個c標籤;使用者2身上打上了4個a標籤,3個b標籤;使用者3身上打上了4個c標籤、1個d標籤。
用個圖形象表示一下:
那麼同時打上a、b標籤的使用者有兩個人,這就說明ab之間可能存在某種相關性,當使用者量、標籤量級越多時,標籤兩兩之間的相關性也越明顯。
使用者畫像標籤維度 使用者畫像 計算使用者偏好標籤
在 使用者畫像 打使用者行為標籤 中,主要講了如何對使用者的每一次操作行為 業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品 內容的類目。關於使用者標籤權重的計算,在這篇部落格裡面講過了 超人 使用者畫像之標籤權重演算法 zhuanlan.zhihu.c...
使用者標籤 vs 使用者畫像
現在很多人把使用者標籤和使用者畫像混為一談。雖然標籤和畫像的資料基礎是同一套,但適用場景完全不同,乙個是巨集觀角度,乙個是微觀角度,需要在使用時進行區別。使用者標籤,是通過人工或智慧型的方式,對使用者群的某些共同特徵進行提煉的結果。使用者標籤是用來給使用者分群的,是面向市場營銷人員的。使用者畫像,是...
使用者畫像 使用者畫像之新使用者分類
使用者畫像的簡單介紹 使用者畫像是一種勾畫目標使用者 聯絡使用者訴求與設計方向的有效工具,利用使用者的基本屬性,訪問特徵,交易特徵,社交特徵及風險特徵等組合的資訊形成一些列的使用者標籤組合稱之為使用者畫像。構建使用者畫像的目的 使用者運營 活動運營過程中,制定策略,對使用者精準投放策略,促使平台引流...