連線函式為正態
from statsmodels.formula.api import glm
formula='attention~csi+company+loyalty'
product_m=glm(formula,data=product,family=sm.families.binomial(sm.families.links.probit)).fit()
連線函式為邏輯函式
formula='attention~csi+company+loyalty'
product_m=glm(formula,data=product,family=sm.families.binomial(sm.families.links.logit)).fit()
順序選擇模型(ordinal):ordinal probit/logit
無序選擇模型(multinomial):multinomial probit/logit
from statsmodels.formula.api import mnlogit
formula='purchase~c(gender)+age'
model3=mnlogit(formula,data=g3_m).fit()
對於某個時間空間等範圍之內事情發生的次數的計數資料,一般認為其服從泊松分布
ln比如印表機發生故障的次數
from statsmodels.formula.api import poisson
formula='counts~c(cartridge)+pages+length'
model4=passion(formula,data=printer).fit()
PYTHON對數值變數進行標準化,離散變數標籤化
建模前的資料準備,數值變數進行標準化,離散變數標籤化 df data dataframe型別資料 label name 目標變數名稱 unique id 資料集唯一標識 defdata standarder df data label name,unique id 得到標註 label df dat...
離散變數和連續變數
離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量...
離散變數的編碼方式
在機器學習問題中,我們通過訓練資料集學習得到的其實就是一組模型的引數,然後通過學習得到的引數確定模型的表示,最後用這個模型再去進行我們後續的 分類等工作。在模型訓練過程中,我們會對訓練資料集進行抽象 抽取大量特徵,這些特徵中有離散型特徵也有連續型特徵。若此時你使用的模型是簡單模型 如lr 那麼通常我...