連續資料的離散化

1.分段類散

同步pandas.cut對值進行分段劃分，進行離散化。類散化後是分段的index。

import pandas as pd
data = [1,3,6,20,50,100]
w =[0,10,50,100]
v=5data_cut1 = pd.cut(data,w,labels=false)
data_cut2=pd.cut(data,v,labels=false)
print(data_cut1)
print(data_cut2)

2.頻率離散化

按照頻率劃分到不同的區間中

import pandas as pd
data = pd.series([0,1,6,7,2,10,8,22,5,11,10])
data_cut3 = pd.qcut(data,[0,0.5,1],labels=['1','2'])
print(data_cut3)

3.聚類離散

可以通過kmeans進行離散劃分

data = np.random.rand(100,1)
print(data)
estimator = kmeans(n_clusters=3) #分為3個簇
estimator.fit(data)
label_pred = estimator.labels_ #每個樣本所屬的簇
print(label_pred)
centroids = estimator.cluster_centers_ #3個中心點
print(centroids)
inertia = estimator.inertia_    #評估簇是否合適
print(inertia)

連續資料離散化

資料規範化 import pandas as pd datafile eeeee chapter4 demo data discretization data.xls 引數初始化 data pd.read excel datafile 讀取資料 data data u 肝氣鬱結證型係數 copy k...

sklearn連續型資料離散化

設定乙個condition，把連續型的資料分類兩類。比如age，大於30，和小於30。from sklearn.preprocessing import binerize as ber x data 2.iloc 0 values.reshpe 1,1 提取資料 trans ber threshol...

連續特徵離散化

參考知乎使用者在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點離散特徵的增加和減少都很容易，易於模型的快速迭代這個點理解稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件離散化後的特徵對異常資料有很...

連續資料的離散化

連續資料離散化

sklearn連續型資料離散化

連續特徵離散化

相關推薦