連續屬性離散化的目的是為了簡化資料結構,資料離散化技術可以用來減少給定連續屬性值的個數。離散化方法經常作為資料探勘的工具。
連續屬性的離散化就是將連續屬性的值域上,將值域劃分為若干個離散的區間,最後用不同的符號或整數值代表落在每個子區間中的屬性值。
離散化有很多種方法,這使用一種最簡單的方式去操作
這樣我們將資料分到了三個區間段,我可以對應的標記為矮、中、高三個類別,最終要處理成乙個"啞變數"矩陣
發現基本符合,但是有肥尾現象
使用的工具:
series.value_counts():統計分組次數
# 自行分組
qcut = pd.qcut(np.abs(p_change), 10)
qcut.value_counts()
自定義區間分組:
# 自己指定分組區間
利用pandas對資料離散化
在實際的工作場景中,我們經常會遇到這樣一種場景 想要將某些字段進行離散化即分桶,簡單來說就是講年齡分成幾個區間。pandas中的cut方法能很好地完成此操作。匯入相關庫,並建立資料集 import pandas as pd import numpy as np index pd.index data...
Pandas資料離散化原理及例項解析
為什麼要程式設計客棧離散化 什麼是資料的離散化 連續屬性的離散化就是在連續屬性的值域上,將值域劃分為若干個zprwgy離散的區間,最後用不同的符號或整數 值代表落在每個子區間中的屬性值 分箱案例 1.先讀取 的資料,篩選出p change資料 data pd.read csv data stock ...
Pandas資料離散化處理
資料離散化處理 import pandas as pd import matplotlib.pyplot as plt from pylab import mpl 設定顯示中文字型 mpl.rcparams font.sans serif simhei data pd.read csv data s...