假定使用者使用某種產品符合以下的馬爾可夫過程:改過程的狀態為0和1,其中$s=0$表示使用者不再使用該產品,$s=1$表示使用者使用該產品。那麼該馬爾可夫過程的轉移矩陣是$m=\begin1 & 0 \\1-p & p \\\end$。
假定初始狀態是$s_1=1$,並且假定使用者的使用次數(隨機變數)為$x$,那麼$pr(x \ge k)=p^$。
定義已經使用$k \ge 1$次該產品的使用者的忠誠度為$s(k)=\frac$,表示已經使用了$k$次該產品的使用者,會繼續使用該產品的可能性。如果完全符合假設,那麼該忠誠度$s(k)=p$。然而,事實上,我們可以定義已經使用了該產品$k$次的使用者個數為$u_k$,那麼實際上的忠誠度為$s(k)=\frac}$。該「忠誠度」實際計算出來的曲線很可能是乙個單調遞增的凹函式(近似),如下圖。
這意味著,隨著使用者使用該產品次數的增加,使用者的忠誠度也在增加。如果你在分析自己產品的使用者使用和流失的情況,或者搞營銷,說不定可以有所幫助哦:-)
強化學習學習筆記 馬爾可夫決策過程(一)
雖然不是第一次學強化學習的內容,但這確實是我第一次在網上開始寫學習筆記。寫學習筆記的原因有兩個 首先是因為,自己學了好久都學不明白,現在開始下決心把這套東西學透。學習筆記有助於我整理學習的思路,相當於再自己複習一遍,看能否用自己的話把所學的東西說明白。也借用各位的評價來審視自己的理解是否有誤。希望用...
馬爾可夫決策過程中的動規
記錄強化學習入門的相關演算法及實現。通過以下步驟進行同步backup,從而評估乙個給定的 policy 在第 k 1 輪,對於所有狀態 s in s 更新 v s sum pi a s mathcal sa gamma sum mathcal a v k s 其中,s is a successor ...
給西瓜澆水問題的馬爾可夫決策過程理解
理解自 周志華 機器學習 在強化學習的過程中,首先是對強化學習的理解,可用馬爾可夫決策過程 markov decision process,mdp 來理解 機器處於環境e中,狀態空間為x xx,其中每個狀態x x x xx x是機器感知到的環境的描述,機器能採取的動作構成了動作空間a aa,若某個動...