1.分段類散
同步pandas.cut對值進行分段劃分,進行離散化。類散化後是分段的index。
import pandas as pd
data = [1,3,6,20,50,100]
w =[0,10,50,100]
v=5data_cut1 = pd.cut(data,w,labels=false)
data_cut2=pd.cut(data,v,labels=false)
print(data_cut1)
print(data_cut2)
2.頻率離散化
按照頻率劃分到不同的區間中
import pandas as pd
data = pd.series([0,1,6,7,2,10,8,22,5,11,10])
data_cut3 = pd.qcut(data,[0,0.5,1],labels=['1','2'])
print(data_cut3)
3.聚類離散
可以通過kmeans進行離散劃分
data = np.random.rand(100,1)
print(data)
estimator = kmeans(n_clusters=3) #分為3個簇
estimator.fit(data)
label_pred = estimator.labels_ #每個樣本所屬的簇
print(label_pred)
centroids = estimator.cluster_centers_ #3個中心點
print(centroids)
inertia = estimator.inertia_ #評估簇是否合適
print(inertia)
連續資料離散化
資料規範化 import pandas as pd datafile eeeee chapter4 demo data discretization data.xls 引數初始化 data pd.read excel datafile 讀取資料 data data u 肝氣鬱結證型係數 copy k...
sklearn連續型資料離散化
設定乙個condition,把連續型的資料分類兩類。比如age,大於30,和小於30。from sklearn.preprocessing import binerize as ber x data 2.iloc 0 values.reshpe 1,1 提取資料 trans ber threshol...
連續特徵離散化
參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...