我們已經進入到網際網路的下半場,增長的動力來自資料驅動。而資料分析的出發點,來自於對使用者行為及需求的洞察。如何將使用者標籤化以便推薦系統能夠推薦合適的內容給使用者是使用者畫像的重點。
使用者畫像的準則
我們需要解決三個問題:
step1、統一標識:使用者唯一標識是整個使用者畫像的核心
step2、給使用者打標籤:使用者標籤的4個維度
step3、基於標籤指導業務:業務賦能的3個階段
使用者畫像都有哪些維度使用者標籤如何指導業務標籤如何產生:
典型的方式有:
pgc:專家生產
ugc:普通生產
標籤是對高維事物的抽象(降維)
聚類演算法:k-means,em聚類,mean-shift,dbscan,層次聚類
******tagbased演算法
統計每個使用者的常用標籤
對每個標籤,統計被打過這個標籤次數最多的商品
對於乙個使用者,找到他常用的標籤,然後找到具有這些標籤的最熱門物品推薦給他
使用者u對商品i的興趣 :
s co
re(u
,i)=
∑tus
e_ta
gs[u
,t]∗
tag_
item
s[t,
i]
score(u,i) = \sum_t use\_tags[u,t]*tag\_items[t,i]
score(
u,i)
=t∑
use_#br
]∗ta
g_it
ems[
t,i]
normtagbased演算法:
對score進行歸一化:
s co
re(u
,i)=
∑tus
e_ta
gs[u
,t]/
use_
tags
[u]∗
tag_
item
s[t,
i]/t
ag_i
tems
[t
]score(u,i) = \sum_t use\_tags[u,t]/use\_tags[u]*tag\_items[t,i]/tag\_items[t]
score(
u,i)
=t∑
use_#br
]/us
e_ta
gs[u
]∗ta
g_it
ems[
t,i]
/tag
_ite
ms[t
]tagbased-tfidf演算法:
如果乙個tag很熱門,會導致user_tags[t]很大,所以即使tag_items[u,t]很小,也會導致score(u,i)很大。給熱門標籤過大的權重,不能反應使用者個性化的興趣。
這裡借鑑tf-idf的思想,使用tag_users[t]表示標籤t被多少個不同的使用者使用:
s co
re(u
,i)=
∑tus
e_ta
gs[u
,t]/
log(
1+us
e_ta
gs[t
])∗t
ag_i
tems
[t,i
]score(u,i) = \sum_t use\_tags[u,t]/log(1+use\_tags[t])*tag\_items[t,i]
score(
u,i)
=t∑
use_#br
]/lo
g(1+
use_#br
∗tag
_ite
ms[t,i]
展示 使用者畫像 使用者畫像系統搭建思路
本篇文章主要講解精細化運營中不可或缺的核心功能 使用者畫像系統,並將介紹如何從 0 到 1 的進行系統的搭建,思路和功能點的設計。當我們通過資料分析,得到了資訊和知識後,最後都是需要落地的,這個落地的操作可能是我們改進了自己的產品,也可能是我們在運營中優化了策略 從目標上劃分,資料分析又可以分為三類...
基於內容的電影推薦 使用者畫像
使用者畫像構建步驟 使用者畫像建立import pandas as pd import numpy as np from gensim.models import tfidfmodel from functools import reduce import collections from ppri...
你真的懂使用者畫像嗎?
在移動網際網路時代,精細化運營成為企業重要的競爭力,此時,使用者畫像 的概念也應運而生。使用者畫像是指,在大資料時代,我們通過對海量數字資訊進行清洗 聚類 分析,從而將資料抽象成標籤,利用這些標籤將使用者形象具體化,從而為使用者提供有針對性的服務。在下文中,我們將以個推使用者畫像產品為例,為你詳解 ...