機器學習學習記錄 持續更新 pandas

2021-10-02 16:56:56 字數 2034 閱讀 2466

pandas訪問資料的方法

pandas操控資料的方法

pandas 是一種列存資料分析 api。它是用於處理和分析輸入資料的強大工具,很多機器學習框架都支援將 pandas 資料結構作為輸入。

可以將它想象成乙個關係型資料**,其中包含多個行和已命名的列。

建立dataframe的方法可以是將對映 string 列名稱的 dict 傳遞到它們各自的 series,從而建立dataframe物件。例如:

city_names = pd.series(

['san francisco'

,'san jose'

,'sacramento'])

population = pd.series(

[852469

,1015785

,485199])

pd.dataframe(

)

但是在大多數情況下,需要將整個檔案載入到 dataframe 中。下面的示例載入了乙個包含加利福尼亞州住房資料的檔案:

california_housing_dataframe = pd.read_csv(

"", sep=

",")

dataframe的幾個常用的顯示資料的方法:

pd.series(

['san francisco'

,'san jose'

,'sacramento'

])

可以使用熟悉的 python dict/list 指令訪問dataframe資料,例如:

輸入:

cities = pd.dataframe(

)print

(type

(cities[

'city name'])

)cities[

'city name'

]

輸出:

0 san francisco

1 san jose

2 sacramento

name: city name, dtype: object

輸入:

print

(type

(cities[0:

2]))

cities[0:

2]

輸出:

輸入:

print

(type

(cities[

'city name'][

1]))

cities[

'city name'][

1]

輸出:

『san jose』

population /

1000

.

輸入:

import numpy as np

np.log(population)

輸出:

0 13.655892

1 13.831172

2 13.092314

dtype: float64

dataframes 的修改方式也非常簡單。例如,以下**向現有 dataframe 新增了兩個 series:

cities[

'area square miles'

]= pd.series(

[46.87

,176.53

,97.92])

cities[

'population density'

]= cities[

'population'

]/ cities[

'area square miles'

]cities

機器學習學習記錄 持續更新 pandas

pandas訪問資料的方法 pandas操控資料的方法 pandas 是一種列存資料分析 api。它是用於處理和分析輸入資料的強大工具,很多機器學習框架都支援將 pandas 資料結構作為輸入。可以將它想象成乙個關係型資料 其中包含多個行和已命名的列。建立dataframe的方法可以是將對映 str...

機器學習學習記錄 持續更新 降低損失

下圖是機器學習過程中常見的迭代流程圖 該圖體現了機器學習過程中,通過迭代來減少損失的基本思路。大致思路如下 首先根據資料集中的訓練集來得到乙個 模型,然後利用該模型來計算乙個特徵對應的輸出,並且計算出損失。通過獲得的損失,來更新 模型的引數,再反覆進行上述過程。直至最後計算出來的損失降低至了可接受的...

機器學習學習記錄 持續更新 特徵組合

在之前的機器學習過程中,基本上都是在研究一些線性模型,如下圖,用一條直線將不同顏色的點分割開來 但是,當你遇到下面這樣的圖形,請問你還可以用一條直線將不同顏色的點分割開來嗎?顯然是不行的!難道這說明我們之前費勁時間學習的線性模型其實沒有什麼廣泛的用途嗎?no!線性模型是目前用的最多 計算速度最快的模...