新技術/實用技術點:
實時、離線場景下資料加工的方案選型
高維資料的視覺化互動
面對不同演算法,不同部署場景如何對流程進行抽象
01. 背景
技術背景及業務需求
小蜜系列產品是阿里巴巴為消費者和商家提供的智慧型服務解決方案,分別在使用者助理、電商客服、導購等方面做了很多任務作,雙十一當天提供了上億輪次的對話服務。其中用到了問答、**、推薦、決策等多種演算法模型,工程和演算法同學在日常運維中會面臨著如何從0到1快速演算法模型並不斷迭代優化,接下來將從工程角度介紹如何打通資料->樣本->模型->系統的閉環,加速智慧型產品的迭代週期。
痛點在以上過程中,會遇到如下幾個痛點:
a. 不同演算法需要不同的標註互動形式,如何快速支援
b. 運營方的標註憑藉個人感覺,缺少指導,無法保障質量
c. 線上badcase如何快速發現和修復
d. 機械人中部署了上百個演算法模型,日常維護需要占用工程師大量的精力
e. 資料樣本在業務和演算法之間來回傳遞,有安全隱患
02. 閉環迭代模型的產生
模型訓練閉環
基於以上的痛點,阿里小蜜團隊構建了模型訓練閉環。該閉環系統主要包括對話系統層、資料層、樣本層和模型層這4個部分。
彼此之間的關係、流程如下:
a. 對話系統層:使用者端會跟機械人系統進行對話
b. 對話產生的日誌經過數倉埋點進入到資料層
c. 資料層由運營人員做標註
d. 完成標註的資料作為樣本,借助演算法團隊提供的訓練/評測服務,進入到模型層
e. 模型發布到系統中,形成訓練閉環
系統 => 資料
① 多維資料查詢
這一部分講述如何從系統層到達資料層,這裡會涉及到「多維資料查詢」這樣乙個概念。前面提到,資料**的渠道是多種多樣的;這些資料會具備多種多樣的屬性,例如:行業屬性、使用者型別屬性等。不同業務的對話日誌帶有各自的業務屬性。
在應用多維資料查詢的過程中,難點是屬性相交等問題。平台的第一項工作就是資料預處理,遍歷出所有的業務-屬性組合;運營人員取資料的時候,先選擇業務維度;接著從業務維度到資料維度進行一層對映,從而去掉其業務屬性(例如,時間、地點、行業等維度分別對映成a、b、c)
② olap與「資料立方體」
這裡用到了聯機分析處理(olap ,on-line analytical processing,一種資料動態分析模型)技術。首先會構造「資料立方體」這樣一種資料結構,將資料分成多種維度,包括:**維度、路線維度、時間維度。
對資料立方體由上捲和下鑽這兩種基本操作,生成新的立方體。下圖中,右半部分是將城市維度進行了上捲操作,左半部分是將季度維度進行了下鑽操作。
資料立方體結構的不足:
a. 維度型別。對於商家這種百萬數量級的維度,搜尋起來效率低下。針對這種缺點,選擇對於重點商家重點維度進行儲存。
b. 多條件的or關係查詢,在這種立方體結構中無法實現。
c. 列舉數量和效率的平衡。需要根據具體覆蓋業務定義屬性等。
實時布防
這類的ai能力如何做實時布防呢?將這類問答、意圖等ai能力在自己的伺服器上以日誌的形式做埋點,伺服器會將日誌收集起來通過flink平台做實時流式聚類,商家工作台通過標註元件的形式展現當前時段的高頻問題,並通過互動式選項選擇如何修復(以上圖中的藍色選定區域為例),從而讓機械人能夠識別該語料。
如何構建阿里小蜜演算法模型的迭代閉環?
新技術 實用技術點 實時 離線場景下資料加工的方案選型 高維資料的視覺化互動 面對不同演算法,不同部署場景如何對流程進行抽象 01.背景技術背景及業務需求 小蜜系列產品是阿里巴巴為消費者和商家提供的智慧型服務解決方案,分別在使用者助理 電商客服 導購等方面做了很多任務作,雙十一當天提供了上億輪次的對...
如何構建分類模型
1.iv 資訊量 在用邏輯回歸模型方法構建分類模型時候,需要對自變數進行篩選 使用資訊量 iv 來衡量自變數的 能力。資訊量越大 能力越強,就越應該放入 模型中。2.woe值 是 iv值的基礎。即 證據權重 weight of evidence.woe 是對原始自變數的一種編碼形式。而要對乙個變數進...
如何共享模型構建器?
一般在建立模型構建器時,都會先在catalog中選擇乙個資料夾建立乙個新的工具箱,然後在工具箱中新建乙個模型構建器,當模型構建完成後,會完整的儲存在工具箱內。此時,我們只需將資料夾中工具箱的檔案 工具箱在 windows 中僅顯示乙個檔案 拷貝即可。拷貝完成後 1.開啟自己的電腦中的arcmap軟體...