微博 使用者畫像 微博的使用者畫像是怎樣構建的

2021-10-13 07:48:01 字數 1657 閱讀 9203

1.概述

從使用者模型維度的劃分可以看出,屬性和興趣維度的使用者模型都可以歸入使用者畫像(user profile)的範疇。所謂使用者畫像,簡單來說就是對使用者的資訊進行標籤化。如圖1所示。一方面,標籤化是對使用者資訊進行結構化,方便計算機的識別和處理;另一方面,標籤本身也具有準確性和非二義性,也有利於人工的整理、分析和統計。

使用者資訊標籤化

使用者屬性指相對靜態和穩定的人口屬性,例如:性別、年齡區間、地域、受教育程度、學校、公司……這些資訊的收集和建立主要依靠產品本身的引導、調查、第三方提供等。微博本身就有比較完整的使用者註冊引導、使用者資訊完善任務、認證使用者審核、以及大量的合作物件等,在收集和清洗使用者屬性的過程中,需要注意的主要是標籤的規範化以及不同**資訊的交叉驗證。

使用者興趣則是更加動態和易變化的特徵,首先興趣受到人群、環境、熱點事件、行業……等方面的影響,一旦這些因素發生變化,使用者的興趣容易產生遷移;其次,使用者的行為(特指在網際網路上的行為)多樣且碎片化,不同行為反映出來的興趣差異較大。接下來主要介紹一下微博畫像中興趣維度的構建方法。

2.微博使用者興趣分析

(1)標籤**

使用者興趣標籤**

(2)權重計算

在收集到乙個使用者可能存在的標籤後,還需要給標籤賦一定的權重,用來區分不同標籤對於該使用者的重要程度。不同標籤的**使用者質量,標籤的傳遞路徑,**關係,標籤的本身,以及標籤與使用者之間的共現關係都會考慮在內。

不同質量的使用者自身產生的標籤權重不一樣,質量越高,認為該標籤的可信度越高,無論是將該標籤賦給自己還是傳遞出去的時候其權重值越高。

標籤的傳遞路徑主要是針對基於關注關係的標籤傳遞,親密度比較高的關注使用者傳遞過來的標籤權重值會比較高。

標籤是來自於使用者的原創還是其**的微博,權重值會有區別,一般來說原創的權重會高於**權重。

如果標籤本身是乙個非常常見的詞,那麼它用於刻畫使用者的興趣的區分性是比較差的,相反如果是乙個長尾詞,則區分性較強。出於這樣的考慮,越是長尾詞,標籤的權重值會越高。

標籤與使用者的共現關係是指使用者和該標籤是否經常共同出現,評價的是兩者的關聯性。關聯性越高,則標籤的權重值越高。

(3)時效性

隨著時間的變化,使用者的興趣會發生轉移,時間越久遠,標籤的權重應該相應的下降,距離當前時間越近的興趣標籤應該得到適當突出。出於這樣的考慮,一般會在標籤權重值上疊加乙個時間衰減函式,這個時間衰減函式被設計成如圖3所示的指數衰減的形式,通過定義衰減幅度和半衰期,調節衰減的程度,體現不同的時效性。

時間衰減函式

此外,針對使用者的興趣,還會設定乙個較小的時間視窗來獲取使用者的短期興趣。通過使用者在短時間內的原創、**和關注行為收集興趣標籤,並計算標籤的權重。短期興趣更新週期會較長期興趣更短,興趣更集中,但是能夠比較及時地反應使用者興趣的變化。

(4)從興趣到能力

微博中的關注關係可以認為是一種認證,具有相同興趣的使用者之間的關注則有可能是興趣相投(當然也可能不是,但畢竟有一定的指導性),那麼將具有相同興趣標籤的使用者提出來,通過關注關係構成乙個圖,被認證得最多的使用者(被關注邊指向得最多)被認為在這個興趣標籤上具有最強能力。如圖4所示中的帶紅色邊框的使用者。

具有相同興趣標籤使用者基於關注關係構成的連通圖

3.小結

使用者畫像的目的是將使用者資訊標籤化,本文中介紹針對微博本身的特點介紹微博使用者畫像的構建,該使用者畫像主要還是從微博的業務出發,完善使用者資訊和發掘使用者興趣,區分興趣和能力,並形式化結構化表達出來。資料的**也主要是微博平台本身,並沒有採用更多的邊緣資料。

微博 使用者畫像 微博的使用者畫像是怎樣構建的

1.概述 從使用者模型維度的劃分可以看出,屬性和興趣維度的使用者模型都可以歸入使用者畫 像 user profile 的範疇。所謂使用者畫像,簡單來說就是對使用者的資訊進行標籤 化。如圖 所示。一方面,標籤化是對使用者資訊進行結構化,方便計算機的識別 和處理 另一方面,標籤本身也具有準確性和非二義性...

目標客戶畫像 使用者畫像是什麼?怎麼做使用者畫像?

很多人說過 使用者虐我千百遍,我待使用者如初戀 然而,你真的待使用者如初戀了嗎?你知道使用者的年齡 學歷 喜好嗎?一 使用者畫像是什麼 簡而言之,使用者畫像是根據使用者社會屬性 生活習慣和消費行為等資訊抽象出的乙個標籤化的使用者模型。標籤化的使用者 根據不同產品 不同目的,使用者畫像又分 品類使用者...

爬取微博指定使用者的微博內容

使用python3爬取微博指定使用者的內容 import urllib.request import json 定義要爬取的微博大v的微博id id 5866810652 設定 ip proxy addr 192.168.1.101 定義頁面開啟函式 獲取微博主頁的containerid,爬取微博內...