學習目標:
pandas 中的主要資料結構被實現為以下兩類:
dataframe
,您可以將它想象成乙個關係型資料**,其中包含多個行和已命名的列。
series
,它是單一列。dataframe 中包含乙個或多個 series,每個 series 均有乙個名稱。
資料框架是用於資料操控的一種常用抽象實現形式。spark 和 r 中也有類似的實現。
建立 series 的一種方法是構建 series 物件。例如:
您可以將對映 string 列名稱的 dict 傳遞到它們各自的 series,從而建立dataframe物件。如果 series 在長度上不一致,系統會用特殊的 na/nan 值填充缺失的值。例如:pd.series(
['san francisco'
,'san jose'
,'sacramento'
])
dataframes 的修改方式也非常簡單。例如,以下**向現有 dataframe 新增了兩個 series:city_names = pd.series(
['san francisco'
,'san jose'
,'sacramento'])
population = pd.series(
[852469
,1015785
,485199])
cities = pd.dataframe(
)
indexcities[
'area square miles'
]= pd.series(
[46.87
,176.53
,97.92])
cities[
'population density'
]= cities[
'population'
]/ cities[
'area square miles'
]cities
city name
population
area square miles
population density
0san francisco
852469
46.87
18187
1san jose
1015785
176.53
5754.177760
2sacramento
485199
97.92
4955.055147
Google機器學習課程 機器學習術語
監督式 機器學習定義 機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的 標籤是我們要 的事物,即簡單線性回歸中的 y 變數。特徵是輸入變數,即簡單線性回歸中的 x 變數。樣本是指資料的特定例項 x 模型定義了特徵與標籤之間的關係。訓練是指建立或學習模型。也就是說,向模型展示有標籤樣本...
機器學習入門
研究生考試結束了,考研通知書也在幾天前到手了,是時候安心下來考慮一下未來研究生的生活和學習了,看現在機器學習特別的火,所以我就先跟風學習一下機器學習吧。由於剛開始學習,所以對一些專有名詞不是很熟悉,所以特別做了一下總結,因為剛剛入門,所以就先整理了這些。人工智慧 一 認知和感知 區別看待 目前是在感...
機器學習入門
1.常用演算法 決策樹 隨機森林演算法 邏輯回歸 svm 樸素貝葉斯 knn演算法 k means演算法 adaboost 演算法 神經網路 馬爾可夫 2.聚類和分類的區別 分類 比如有一堆資料,你已經事先對他們做好了分類。你想要的功能就是,假如來了一條測試資料,我想知道他是哪一類,這就是分類。聚類...