— — "水果糖小椿 m39 暫掛"
— — "列表科幻?"
不知大家能否讀懂上面的對話,但在閒魚,這樣的對話每天都在發生。資料顯示,閒魚約30%的使用者年齡不滿25歲。了解這些95後的興趣偏好,對閒魚服務年輕使用者,實現精細化運營有著十分重要的意義。因此,我們希望用資料探勘的方式,對使用者的興趣偏好進行打標,建立具有閒魚特色的興趣標籤體系,為閒魚的精細化運營提供物料,提高使用者對閒魚的活躍度和忠誠度。
相比於商品的結構化資訊,興趣愛好的表達具有更強的靈活性。其範圍幾乎沒有限制,可以是乙個很小眾的領域,如抽盲盒、徒手攀岩;也可以是乙個很寬泛的風格,如復古風,暗黑系。因此,如何做到高效精準地理解使用者,是興趣標籤建設面對的最大挑戰。
在興趣標籤建設初期,我們首先梳理了理解使用者興趣偏好的3個關鍵點:
基於以上3點思考,我們對業內常見的標籤體系生產方式進行了調研。業內常見的標籤生產方式可以分為 1)模型** 和 2)行為統計 兩種。
模型**的方式通過構建機器學習模型,對使用者在某個興趣點上的感興趣程度進行**打分,得分越高,興趣越濃厚,通常可分為有監督和無監督兩類。該方法的優點是準確率高,缺點是必須有足夠體量的樣本,且為了保證準確性,往往採用二分類的方法,每種興趣都要收集足夠的樣本分別構建模型,效率低且計算成本高。
行為統計的方法是基於使用者歷史在興趣內容上的行為進行統計打分,通常會考慮行為型別、行為頻次和行為時間衰減等因素,得分越高興趣越濃厚。該方法計算簡便、可解釋性強,但由於統計資訊沒有泛化和自學習的能力,需要在統計的同時考慮到覆蓋率和時效性。
興趣標籤體系解決方案
選型初期,我們與閒魚社群的工程團隊一起,討論了兩套方案:
tf-idf是一種文字挖掘演算法,用以計算某個單詞對一篇文章的重要程度。其主要思想是:如果某個單詞在一篇文章**現的頻率高,並且在其他文章中很少出現,則認為此單詞能夠很好地標記文章的主題,具有良好的區分能力。tf-idf其實是tf*idf,其中,
體現了該單詞在單檔案中的出現頻率;
體現了該單詞在檔案集合中的類別區分能力。
單詞在同一份檔案**現的頻率越高,且檔案集合中包含該詞的檔案數越少,說明單詞的文字分類能力越強,越能體現檔案主題。
這裡,我們將乙個興趣領域看做乙個單詞,乙個使用者看做乙個檔案,全量使用者看做檔案集合,則使用者在不同興趣領域的tf-idf可表示為
通過這種方式,我們可以真正對興趣領域有偏好的使用者,標記為興趣人群。
目前標籤體系已經完成了第一階段的建設。第一階段重點對95後最熱衷的興趣領域進行打標,成果如下:
除了覆蓋量上的突破,標籤體系同樣在實際業務中拿到了投放效果,驗證了人群的準確度。在一期建設完成後,我們將標籤體系應用於閒魚的直播業務,帶來了實際的效果提公升:
由於專案時間緊急,興趣標籤以快速實現業務目標為準則進行了初版建設,後續隨著業務的發展,我們的標籤體系也會逐漸完善
豐富使用者的行為資訊,在現有的行為資訊基礎上,增加使用者在社群、本地化或文娛等場景下的行為,對使用者進行更加豐富和全面的刻畫
我的同事告訴我的
在我離開校園之前,很多人曾告訴我 同事與同學不一樣,那裡只有競爭,而沒有友誼。但是從我走過來的路來看,同事也可以像同學一樣,同事之間也能夠成為好朋友。關鍵是你要有一顆真誠的心,一顆謙虛的心,一顆愛學的心。我的同事告訴我 在外面,要學會自己照顧自己。不是因為你需要幫助的時候,別人不理不睬。而是在你需要...
北大青鳥貼吧,告訴我,封我ID的理由。
2011年3月25日,11點20左右,我在北大青鳥 貼吧發布這樣的訊息 如圖 結果 被提示 告知 我id 違規發言,被全貼吧永久禁言 這真的讓我很費解,我不認為我有任何違反貼吧發帖的語言,出於學員對課程的反饋,竟然被這樣抹殺,不廣開言路如何能取得進步。我的反饋的問題很實在,並沒有給青鳥抹黑,而且,我...
我希望四年前就有人告訴我的事情
就在2007年,我毅然離開了微軟,加入了創業者的隊伍。像很多第一次創業的人一樣,我對這種冒險非常的興奮。同樣也跟很多第一次創業的人一樣,我茫然沒有頭緒。我參加各種活動,聚會,研討會,和西雅圖本地的創業社群密切交往。當我到了矽谷後,我發現這裡有更多的活動,聚會,更多的研討會。在這個創業生態系統裡,一切...