評書 《美團機器學習實踐》

2021-09-11 09:11:17 字數 2060 閱讀 6274

新入手一本《美團機器學習實踐》,讀完覺得很有意思,把一部分內容分享給大家。

美團可以說是當之無愧的國內最大的poi和o2o應用的公司,他們在這方面的經驗積累極多,架構非常漂亮,而且即使我這個不大了解這方面的人讀起來,也能對機器學習在poi和o2方面的應用有大致的了解。接下來筆者將介紹一些自己覺得很有趣的部分。

poi在這本書裡代表乙個資訊實體,比如在酒店業務中就代表乙個酒店。維護乙個優質的poi資訊庫是一切演算法的基礎。美團在這一部分討論的是這樣乙個問題:美團已經有的poi資訊庫,稱為庫存poi;需要錄入的poi資訊庫,稱為待選poi庫。待選poi庫中的大部分poi都可能本來就在庫存poi中,只是名稱、描述、資訊等可能不同,乙個在應用中比較重要的問題就是將待選poi庫對應到庫存poi庫中去。

以酒店業務為例,金泉假日酒店和金泉商務賓館可能是同一家實體,要怎麼把它們對應起來呢?從名稱相似度上入手是大家都想得到的解決方案,但是這個方法未必準確,因此就需要引入其他資訊,比如位址、**、經緯度等。在這個場景中還有乙個問題要關注,即不能進行全量比較,否則我們就將得到乙個複雜度至少為待選poi庫大小*庫存poi庫大小的演算法,這個複雜度在實踐中是不可接受的。那麼美團的方案是什麼呢?

第一步:縮小候選集

通過聚類的方式進行poi聚合:即首先在城市維度進行聚合

建立倒排索引,縮小比較候選集

第二步:相似度比較

這一步有兩個方法:

if-else連擊,即通過一連串if-else條件判定是否同一實體

相似度打分:對不同poi的每乙個維度進行打分,加權比較相似度

具體流程

這一工作的具體流程為: 資料清洗-》特徵生成(各種不同模組)-》模型選擇與效果評估

他們的候選模型包括gbdt,svm,lr等,不算複雜,但是講到了不少實踐中的細節。

o2o場景下的搜尋比普通的搜尋問題有意思,因為它是深度依賴於當前環境的。使用者在日本、在北京、在武漢搜同乙個詞往往代表著不同的意思。使用者在中午搜美食、下午搜美食、晚上搜美食,往往期待得到的美食推薦完全不相同。使用者搜地點時未必想找地點,也可能是找地點附近的餐廳或酒店。這些問題對搜尋系統提出了非常高的要求。

在美團中,搜尋引擎要解決的主要問題如下:

如何定義使用者的查詢意圖?

如何識別使用者的查詢意圖?

如何將使用者的查詢意圖鏈結到特定實體?

如何引導使用者完成搜尋?

這本書對這些問題的解決方法都做了詳細的解釋。筆者就不在這裡詳細描述了。而另乙個問題是搜尋結果的排序方式,美團認為自己的搜尋排序場景主要有如下四個特點:

移動化:使用者的位置不斷移動,並且距離是排序的重要因素

場景化:使用者在家、工作地點、戶外或者店內,這些不同場景對於使用者意圖的理解是非常重要的

本地化:搜尋查詢的目標往往是本地化的

個性化:使用者偏好較為明顯

針對這些特點,美團實現了自己的搜尋排序框架。

地理位置因素

實時推薦:一是需要考慮使用者的實時地理位置,二是需要考慮消費的實時性,在o2o場景下,使用者從考慮消費到最終下單的時間非常短

召回階段:召回策略包括基於協同過濾的召回、基於位置的召回、基於搜尋查詢的召回、基於圖的召回和基於實時使用者行為的召回

排序階段;排序模型仍然是經典的模型,沒有什麼特別之處,特徵則包括:item維度的特徵、使用者維度的特徵、使用者和item的交叉特徵、距離特徵和場景特徵。

從行文來看,推薦並不是美團最重視的入口。

o2o場景下的廣告營銷主要具有如下特點:

移動化:主要體現在精確性、即時性和互動性三個方面

本地化:美團發現超過90%的交易中使用者和商家的距離小於3公里

場景化:移動條件下的場景比web條件下更為精確

多樣性:o2o模式面對的商戶各種各樣,需求差異很大

綜合這些特點,美團的廣告排序機制非常有趣,它可以實現一些在web條件下根本不可能實現的需求:例如分辨哪些是流失單,流失到了哪個競爭對手手裡。我不在這裡贅述它的具體內容,但整體而言還是很有意思。

從個人角度來說,這本書最大的價值在於視野拓展。不同的場景下,演算法要面對的問題千差萬別,有些問題往往是不做這些的人根本想不到的。很多時候,發現問題、定位問題的價值比解決問題還要高。所以,多看看不同場景下的演算法應用是非常有幫助的,與各位讀者共勉。要是有機會的話,我們下次再分析一下美團的使用者畫像架構。

《美團機器學習實踐》隨筆(一)

特徵選擇 工具eda 探索性資料分析 採用各種技術 大部分為視覺化技術 在盡量少的先驗假設條件下,探索資料內部結構和規律的一種資料分析方法或理念 數值特徵 資料應滿足模型的一些隱式或者顯示的假設,例如 線性回歸訓練使用平方損失函式等價於假設 誤差服從高斯分布。類別特徵 時間特徵 空間特徵 文字特徵 ...

美團推薦演算法實踐

推薦系統並不是新鮮的事物,在很久之前就存在,但是推薦系統真正進入人們的視野,並且作為乙個重要的模組存在於各個網際網路公司,還是近幾年的事情。隨著網際網路的深入發展,越來越多的資訊在網際網路上傳播,產生了嚴重的資訊過載。如果不採用一定的手段,使用者很難從如此多的資訊流中找到對自己有價值的資訊。解決資訊...

美團機器學習實踐第四章 模型融合總結

思維導圖如下 模型融合是一種有效提公升機器學習效果的方法,通過構建並融合多個模型來完成學習任務。模型融合主要包含兩個階段 構建若干單模型和模型融合。如果模型融合使用的單模型屬於一類學習演算法,這樣的融合稱為同質模型融合,如果模型融合使用多種不同的學習演算法構建的單模型,這樣的融合稱為異質模型融合。1...