python資料分析資料標準化及離散化詳解

2022-08-26 11:00:12 字數 2312 閱讀 3063

python資料分析資料標準化及離散化詳解

本文為大家分享了python資料分析

執行結果

2、標準差標準化

消除單位影響以及變數自身變異影響。(零-均值標準化) 

基本公式為:

x'=(x-平均數)/標準差

python**: 

#!/user/bin/env python

#-*- coding:utf-8 -*-

#author:m10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',

user='root',

passwd='123456',

db='python')#鏈結本地資料庫

sql = 'select price,comment from taob'#sql語句

data = pd.read_sql(sql,conn)#獲取資料

#標準差標準化

data1 = (data-data.mean())/data.std()

print(data1)

執行結果:

3、小數定標標準化

消除單位影響 

基本公式為: 

其中j=lg(max(|x|)),即以10為底的x的絕對值最大的對數

x' = x/10^j

實現**為: 

#!/user/bin/env python

#-*- coding:utf-8 -*-

#author:m10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',

user='root',

passwd='123456',

db='python')#鏈結本地資料庫

sql = 'select price,comment from taob'#sql語句

data = pd.read_sql(sql,conn)#獲取資料

#標準差標準化

j = np.ceil(np.log10(data.abs().max()))#進一取整,abs()為取絕對值

data1 = data/10**j

print(data1)

結果:離散化離散化是程式設計中乙個常用的技巧,它可以有效的降低時間複雜度。其基本思想就是在眾多可能的情況中,只考慮需要用的值。離散化可以改進乙個低效的演算法,甚至實現根本不可能實現的演算法

1、等寬離散化

將連續資料按照等寬區間標準離散化資料,好處之一是處理的資料是有限個資料而不是無限多。 

使用pandas的cut方法。非等寬只需要更改cut的第二個引數,例如:第二個引數為[1,100,3000,10000,200000],即劃分為了四個區間。

#!/user/bin/env

python

#-*- coding:utf-8 -*-

#author:m10

importnumpy as np

importpandas as pd

importmatplotlib.pylab as

pltimportmysql.connector

conn=mysql.connector.connect(host='localhost',

user='root',

passwd='123456',

db='python')#鏈結本地資料庫

sql='select price,comment

from taob'#sql語句

data=pd.read_sql(sql,conn)#獲取資料

#離散化

data1=data['price'].t.values#獲取**的一維陣列

lable=['很低','低','中','高','很高']

data2=pd.cut(data1,5,labels=lable)

print(data2)

執行結果:

2、等頻率離散化

將相同數量的資料放進乙個區間。

3、一維聚類離散化

按屬性對資料進行聚類離散。

以上就是本文的全部內容,希望對大家的學習有所幫助

資料分析 資料標準化

一 為何要將資料標準化?為了消除量綱影響和變數自身變異大小和數值大小的影響,故將資料標準化。由於不同變數常常具有不同的單位和不同的變異程度。不同的單位常使係數的實踐解釋發生困難。例如 第1個變數的單位是kg,第2個變數的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變數觀察值之差的絕對值 ...

python 資料標準化

def datastandard from sklearn import preprocessing import numpy as np x np.array 1.1.2.2.0.0.0.1.1.print 原始資料為 n x print method1 指定均值方差資料標準化 預設均值0 方差 ...

Python 資料標準化

定義 將資料按照一定的比例進行縮放,使其落入乙個特定的區間。好處 加快模型的收斂速度,提高模型 精度 常見的六種標準化方法 class datanorm def init self self.arr 1 2,3 4,5 6,7 8,9 self.x max max self.arr self.x m...