使用者對某個事物有興趣,到為產品做出貢獻,不僅僅是先驗法則
一、微博,從使用者興趣到生成內容
使用者資訊標籤化
圖1 使用者資訊標籤化
使用者屬性指相對靜態和穩定的人口屬性,例如:性別、年齡區間、地域、受教育程度、學校、公司……這些資訊的收集和建立主要依靠產品本身的引導、調查、第三方提供等。微博本身就有比較完整的使用者註冊引導、使用者資訊完善任務、認證使用者審核、以及大量的合作物件等,在收集和清洗使用者屬性的過程中,需要注意的主要是標籤的規範化以及不同**資訊的交叉驗證。
使用者興趣則是更加動態和易變化的特徵,首先興趣受到人群、環境、熱點事件、行業……等方面的影響,一旦這些因素發生變化,使用者的興趣容易產生遷移;其次,使用者的行為(特指在網際網路上的行為)多樣且碎片化,不同行為反映出來的興趣差異較大。接下來主要介紹一下微博畫像中興趣維度的構建方法。
2 微博使用者興趣分析
(1) 標籤**
圖2 使用者興趣標籤**
(2) 權重計算
在收集到乙個使用者可能存在的標籤後,還需要給標籤賦一定的權重,用來區分不同標籤對於該使用者的重要程度。不同標籤的**使用者質量,標籤的傳遞路徑,**關係,標籤的本身,以及標籤與使用者之間的共現關係都會考慮在內。
不同質量的使用者自身產生的標籤權重不一樣,質量越高,認為該標籤的可信度越高,無論是將該標籤賦給自己還是傳遞出去的時候其權重值越高。
標籤的傳遞路徑主要是針對基於關注關係的標籤傳遞,親密度比較高的關注使用者傳遞過來的標籤權重值會比較高。
標籤是來自於使用者的原創還是其**的微博,權重值會有區別,一般來說原創的權重會高於**權重。
如果標籤本身是乙個非常常見的詞,那麼它用於刻畫使用者的興趣的區分性是比較差的,相反如果是乙個長尾詞,則區分性較強。出於這樣的考慮,越是長尾詞,標籤的權重值會越高。
標籤與使用者的共現關係是指使用者和該標籤是否經常共同出現,評價的是兩者的關聯性。關聯性越高,則標籤的權重值越高。
(3) 時效性
隨著時間的變化,使用者的興趣會發生轉移,時間越久遠,標籤的權重應該相應的下降,距離當前時間越近的興趣標籤應該得到適當突出。出於這樣的考慮,一般會在標籤權重值上疊加乙個時間衰減函式,這個時間衰減函式被設計成如圖3所示的指數衰減的形式,通過定義衰減幅度和半衰期,調節衰減的程度,體現不同的時效性。
時間衰減函式
圖3 時間衰減函式
此外,針對使用者的興趣,還會設定乙個較小的時間視窗來獲取使用者的短期興趣。通過使用者在短時間內的原創、**和關注行為收集興趣標籤,並計算標籤的權重。短期興趣更新週期會較長期興趣更短,興趣更集中,但是能夠比較及時地反應使用者興趣的變化。
(4) 從興趣到能力
微博中的關注關係可以認為是一種認證,具有相同興趣的使用者之間的關注則有可能是興趣相投(當然也可能不是,但畢竟有一定的指導性),那麼將具有相同興趣標籤的使用者提出來,通過關注關係構成乙個圖,被認證得最多的使用者(被關注邊指向得最多)被認為在這個興趣標籤上具有最強能力。如圖4所示中的帶紅色邊框的使用者。
具有相同興趣標籤使用者基於關注關係構成的連通圖
圖4 具有相同興趣標籤使用者基於關注關係構成的連通圖
3 小結
使用者畫像的目的是將使用者資訊標籤化,本文中介紹針對微博本身的特點介紹微博使用者畫像的構建,該使用者畫像主要還是從微博的業務出發,完善使用者資訊和發掘使用者興趣,區分興趣和能力,並形式化結構化表達出來。資料的**也主要是微博平台本身,並沒有採用更多的邊緣資料。
一、微博,從使用者興趣到生成內容
flink 使用者購買行為跟蹤
電商公司出於提高使用者的復購率 粘連度等目的經常會推出各種營銷手段,運營部們希望資料中心能實時跟蹤使用者的購買行為作為推送各種優惠的依據,能實時把可以推送優惠券的使用者推送給相關應用 我們把使用者的各做操作抽象為以下四類 實際中會更多 view product add to cart remove ...
bitset儲存使用者和歌曲的購買關係
1億個使用者,1000萬首歌,當使用者第一次購買了這首歌,後續就可以永久免費了,如何記錄這個使用者和歌的對應關係。方案是很多的,可以記錄資料庫,放到redis裡面等都是可以的,但是隨著使用者和歌曲關係的增加,資料庫或是redis是抗不住的,理論上使用者和歌曲的關係有1億 1000萬中關係,要記錄所有...
使用者興趣模型分類以及推薦系統技術調研
使用者興趣模型分類 2 基於布林模型的表示方法 3 基於向量空間模型的表示方法 4 基於本體的使用者模型表示方法 本體 給出構成相關領域詞彙的基本術語和關係,以及利用這些術語和關係構成的規定這些詞彙外延的規則的定義。由於本體本身的特點,它包含領域常用術語的同時並提供術語與術語之間的網狀關係,基於領域...