第10章 **響應(分類)模型的應用和技術小竅門
正如上篇文章所說的本書的重點是商業+模型,本章節中關於演算法的一些描述我覺得有些不妥,例如介紹決策樹(dt)的優缺點的時候,文中指出「如果目標變數是連續型變數,那麼決策樹就不適用了,最好改成線性回歸」,其實dt演算法也是可以解決回歸問題的,例如網際網路廣告頁面的點選率**就可以用gbrt(梯度的boosting tree)來**,再例如文中對比線性回歸跟邏輯回歸時,說線性模型是目標變數跟自變數呈線性,而logistic regression又不是線性的,這個從演算法層面來講就有點矛盾了,
logistic regression其實也是乙個線性模型
。全章介紹了4種演算法(神經網路nn,決策樹dt,邏輯回歸lr,多元線性回歸),關於這四種演算法的總結如下
關於各個演算法的詳細情況(優化,目標函式,引數調優,並行化策略),可以google或者看**,下圖對比了不同學習演算法優缺點
業務原因:1) 建模樣本資料的提取跟業務邏輯不對應; 2) 根據業務提取的資料質量存在問題;
模型原因:1) 模型自變數(特徵屬性)過多; 2) 模型迭代次數過多;
另外資料樣本要保證足夠,否決就欠擬合啦
應對過擬合的解決手段:1)把資料分成訓練、測試、驗證三組資料集合,結合模型調整引數; 2)資料取樣的時候要注意最好層次取樣。
資料化運營之會員資料化運營
會員資料化運營主要用來解決以下方面問題 1 會員生命週期狀態 2 會員核心訴求 3 會員價值如何 4 會員轉換習慣與路勁 5 如何擴大市場覆蓋 獲取更多會員 6 如何維繫老會員 7 應該在什麼時間 採取什麼措施 針對那些會員做那些活動 8 在特定運營目標下,應該如何指定會員管理措施 會員資料化運營關...
資料化運營 1
前段時間,boss推薦 資料探勘與資料化運營實戰 思路 方法 技巧與應用 買來看了一下,覺得裡面有很多乾貨,儘管有關怎麼建模,如何建模等深入到演算法層面的東西講的比較少,但是該書站在商業化,業務 技術的角度闡釋了該如何做資料探勘,以下我是用思維導圖的方式記錄了的筆記 直接從雲筆記裡面copy過來 第...
資料化運營概述
1.資料化運營的概述 資料化運營是指通過資料化的工具 技術和方法,對運營過程中的各個環節進行科學的分析 引導和應用,從而達到優化運營效果和效率 降低運營成本 提高效益的目的。包括會員運營 商品運營 流量運營和內容運營四方面的內容。2.資料化運營的意義 資料化運營的核心是運營,資料化運營的價值體現在對...