機器學習No 4

2022-05-07 03:42:13 字數 1778 閱讀 3647

1.也就是資料清洗的一步,最簡單的方法是刪除法:刪除列、刪除行。

2.另一種是填補法:

對於數值型變數:平均值填補、中位數填補等。

其他的方法:

(1)填補上下值

(2)插值法擬合出缺失的資料進行填補

for f in features: #

插值法填充

train_data[f] =train_data[f].interpolate()

train_data.dropna(inplace=true)

主要是解決將字串轉換成數值型別(向量或矩陣)

1.類別型變數

(1)標籤編碼

直接用0、1、2 等去標,不能直接輸到模型裡。

(2)獨熱編碼

使用向量,除了乙個位置是1,其他位置均為0, 1的位置對應的是相應類別出現的位置。

2.數值型變數

連續性特徵的離散化操作可以增加模型的非線性型,同時也可以有效地處理資料分布的不均勻的特點。

3.順序變數

看做數值型變數來處理。

1.使用read_csv讀取資料, 並顯示資料內容

import

pandas as pd

df = pd.read_csv('

d:/car price.csv')

print(df)

讀取結果:

2.特徵處理

把類別型特徵轉換成獨熱編碼:

df_colors = df['

color

'].str.get_dummies().add_prefix('

color:')

df_type = df['

type

type:')

df = pd.concat([df,df_colors,df_type],axis = 1)

df = df.drop(['

brand

','type

','color

'],axis = 1)

print(df)

讀取結果:

3.特徵相關性

corr()函式:pandas的乙個函式,可以計算兩列值的相關係數,預設用的是pearson相關係數。取值範圍是[-1, 1],越接近 1 表示正相關性越強,越接近-1 表示負相關性越強。

想看兩列資料的相關性,可以用seaborn的熱力圖來視覺化。

我覺得這個還挺好玩的,就用我們樹蛙大作業的資料,截了50條來試了一下(指標是汙染物和aqi)。

4.特徵歸一化

把原始特徵轉換成均值為0方差為1的高斯分布。

5.訓練模型然後進**。使用kd樹來加速搜尋速度,一般只適合用在低維的空間。

把kd樹看作是一種資料結構,而且這種資料結構把樣本按照區域重新做了組織,這樣的好處是乙個區域裡的樣本互相離得比較近。假如之後來了乙個新的**樣本,這時候我們首先來判定這個**樣本所在的區域,而且離它最近的樣本很有可能就在這個區域裡面。kd樹的經典應用場景:在地圖上的搜尋。如搜尋離當前點最近的加油站、餐館,等等。

祝福簡訊NO 4

你是春天裡的風,吹綠了我枯竭的心 你是夏日裡的水,滋潤了我乾涸的心 你是秋季裡谷,成熟了我希望的心 你是冬天裡的火,照亮了我冰冷的心!兩個寂寞的人被網路醞釀成兩個人的寂寞!有你我很幸福,有你我卻更加寂寞。暫時的分離可以讓彼此的思念更深刻,我們都需要通過時間來見證世俗的偏頗!在春天,你給我帶來春風一樣...

Pandas基礎語法NO 4

若cov 0 沒有關聯 若為正,正相關 若為負,負相關 但是無法衡量相關性的強弱 correlation 只看線性關係 無單位的量數,介於 1到1 衡量兩個變數中線性關係的強弱 x,y cov x,y x y 1,完全正 負相關 0,uncorrelated a np.arange 1,10 res...

No 4列表 元組

列表 元組字典 集合計算機基礎 windows mac直譯器 編譯器 軟體 應用程式 環境的安裝 開發工具ide pycharm 語法直譯器路徑 hellow.py usr bin env python print 你好 linux系統應用 編碼 usr bin env python coding ...