性別是人類差異最大的特徵之一,又是群體行為、偏好和需求等方面的基本影響因子之一;性別識別的重要性和價值性不言而喻,每個使用者畫像產品的構建,基本都會遇到性別標籤的識別需求。
目前業內使用者性別識別的方法很多,最大的特點是基於使用者的行為進行使用者識別,識別的準確性也參差不齊。作者認為影響識別準確性的關鍵原因在於這些使用者行為蘊含的性別影響因子有多大,如果性別的區別對這些行為沒有多大的影響力,那模型和演算法的準確性將會遇到明顯的瓶頸。同時,基於使用者行為的性別識別涉及的資料面非常廣、資料依賴鏈條很長、資料計算複雜度很高,識別效能反而成為了痛點!
在這裡,作者分享一下貝聊的使用者性別識別模型:基於使用者資訊(姓名)的使用者性別識別方法!這雖然只是乙個單因素識別模型,但是實際識別準確率卻高達90%以上,為什麼效能這麼高?主要是因為性別對命名的影響至關重要!下面我們分步驟來講解下貝聊的使用者性別識別模型構建過程。
一、樣本庫構建:
1、「姓名—性別」關係庫構建
2、「詞性—性別概率」關係庫構建
貝聊的使用者性別識別模型對不同詞在姓名中的位置做了區分,因為同乙個詞用在名字的不同位置的性別含義有較大區別!例如:「海」字,在用作名字的最後乙個詞時,男性概率高達95%;但作為名字的中間詞時,男性概率僅有51%(基本是乙個中性詞)。
經過樣本資料的計算,統計出每個詞的性別概率,結果庫如下圖所示(演示資料!)
二、使用者性別識別模型構建
1、模型構建
基於使用者資訊的使用者性別識別模型構建非常簡潔,因為是文字資料,也不需要用到相對複雜一些的邏輯回歸等演算法,模型構建的思路基本上是「詞性—性別概率」關係庫構建的逆過程。姓名的識別概率公式如下圖:
計算出使用者性別的識別概率後,通過設定閾值,即可得到使用者的性別標籤。整體而言,模型計算量非常小,可解釋度很高,模型出錯時問題容易追蹤,**效能非常好!
2、結果分析
計算使用者性別識別概率後,通過設定不同的閾值,可以得到不同的**準確性。相對來說,閾值越低(例如**男性概率大於50%時,就算男性,否則女性),則可**的使用者面較大,閾值越高(例如**男性概率大於60%時,才算男性,小於40%才算女性),則**的準確性得到保障,但有部分使用者沒法識別。
上圖,我們抽取了部分貝聊員工來做模型結果驗證測試(閾值設定為50%);從資料來看,模型準確性非常高,呈現出以下特點:
l**準確度和精確度,都高於90%;其中男性的**準確度更高,女性的**精確度更高;說明相對而言,女性使用者一般不會採用男性化字眼的名字。
l**結果仍有5%-10%左右的誤差率;這應該是男性命名女性化,女性命名男性化影響所致,或者命名性別中性化。在單因素模型下,只能通過調整閾值來解決,否則就需要引入其他因子,構建多因素識別模型。
根據作者的經驗,基於使用者姓名的使用者性別識別模型具有較好的適用性、可部署性和延展性,在研究單因素識別方法方面提供了一定的參考價值;也可以在此基礎上,引入其他因素,提高模型的準確性。
產品經理之使用者畫像
使用者畫像針對目標使用者形成的乙個抽象的使用者畫像,也就是使用者資訊的標籤化,以真實使用者為綜合原型。使用者畫像使得產品更專注,提高決策效率。產品經理不能代替使用者發聲,需求一定要 於目標使用者。建立使用者畫像的一般流程 建立使用者畫像的方法 定量使用者畫像 一般沒有專業的使用者分析的團隊的情況下推...
使用者畫像 如何構建使用者畫像
1 使用者畫像是什麼 what 2 為什麼要構建使用者畫像 why 3 如何構建使用者畫像 how 下文將會對這三部分內容做詳細介紹。1 什麼是使用者畫像 使用者畫像是一種用來描述產品目標使用者特徵的使用者研究方法,在實際操作的過程中往往會以最為淺顯和貼近生活的標籤將使用者的屬性 行為與需求聯絡起來...
使用者畫像 使用者畫像之新使用者分類
使用者畫像的簡單介紹 使用者畫像是一種勾畫目標使用者 聯絡使用者訴求與設計方向的有效工具,利用使用者的基本屬性,訪問特徵,交易特徵,社交特徵及風險特徵等組合的資訊形成一些列的使用者標籤組合稱之為使用者畫像。構建使用者畫像的目的 使用者運營 活動運營過程中,制定策略,對使用者精準投放策略,促使平台引流...