(對於kaggle中machine learning course和learn pandas的學習筆記)
intro to data structures
pandas kaggle course
creating, reading, and writing reference
十分鐘的 pandas 入門教程(中文翻譯)
(這一部分涉及到numpy的ndarray,之後再回來補充)
(1) series
a. series的建立
乙個列+索引的資料結構,那一列上元素可為各種資料型別。
s = pd.series(data, index=index)
其中傳遞的值index為list型別的,用來區分每個data。
1. 若data為ndarray:
index必須具有與data相同的長度。如果未指定index,則預設新增index為 0, 1…, len(data)-1
s = pd.series(np.random.randn(5)
, index=
['a'
,'b'
,'c'
,'d'
,'e'
])
2. 若data為字典:
series的索引直接就為字典的鍵。
若未傳遞index的值,在python3.6以上的版本中,series中各個元素的順序和字典中的順序一致;版本更低,series中元素的順序為按照索引的公升序排列:
d =
pd.series(d)
# output:
# b 1
# a 0
# c 2
若傳遞了index的值,與index對應的鍵的值會被提取出來:
d =
pd.series(d, index=
['b'
,'c'
,'d'
,'a'])
# output:
# b 1.0
# c 2.0
# d nan (pandas中說明資料丟失的標誌
# a 0.0
3. 若data為標量:
index必須被指定,值會被重複到和標籤相同的長度。
pd.series(5.
, index=
['a'
,'b'
,'c'
,'d'
,'e'])
# output:
# a 5.0
# b 5.0
# c 5.0
# d 5.0
# e 5.0
b. series的操作
(後期再補充)
1. 對series進行類似ndarray的操作:
進行操作s[0]時,僅會取出data;進行切片操作時,data和index都會被取出
2. 對series進行型別字典的操作:
相當與對於定長字典的操作。
(2) dataframe
a. dataframe的建立
有多個列,每個列都有label(columns),也有索引(index),各列之間的資料結構可能不同。可以理解為series的字典。
1. data為字典
不論字典的value是什麼型別的(普通型別、series、dict、ndarrays、list),字典的鍵為columns,為每列的列首;每個值都會被轉化成乙個series,其index為每行的行首。
df2 = pd.dataframe(
)# output:
# a b c d e f
# 0 1 2013-01-02 1 3 test foo
# 1 1 2013-01-02 1 3 train foo
# 2 1 2013-01-02 1 3 test foo
# 3 1 2013-01-02 1 3 train foo
d =df = pd.dataframe(d)
df# output:
# one two
# a 1.0 1.0
# b 2.0 2.0
# c 3.0 3.0
# d nan 4.0
若建立dataframe時又提供了index或者columns,則按照提供的index 或/和 columns篩選
pd.dataframe(d, index=
['d'
,'b'
,'a'])
# output:
# one two
# d nan 4.0
# b 2.0 2.0
# a 1.0 1.0
pd.dataframe(d, index=
['d'
,'b'
,'a'
], columns=
['two'
,'three'])
# output:
# two three
# d 4.0 nan
# b 2.0 nan
# a 1.0 nan
pandas速查手冊中文版
機器學習入門基礎
一,什麼是人工智慧 人工智慧 artificial intelligence 英文縮寫為 ai。它是研究使計算機來模擬人的某些思維過程和智慧型 行為 如學習 推理 思考 規劃等 的學科,主要包括計算機實現智慧型的原理 製造類似於人腦智慧型的計算機,使計算機能實現更高層次的應用。人工智慧將涉及到電腦科...
機器學習 MATLAB基礎(入門)
format 顯示格式關鍵字 含義clc 清除命令視窗的顯示內容 clear 清除matlab工作空間中儲存的變數 who或whos 顯示matlab工作空間中的變數資訊 dir顯示當前工作目錄的檔案和子目錄清單 cd顯示或設定當前工作目錄 type 顯示指定m檔案的內容 help或doc quit...
機器學習基礎入門概述
機器學習概述 機器學習的定義 機器學習理性認識 通過歷史資料進行建模,通過建模後的公式進行 處理 理論上,資料越多,也就越準 ax c y x1,y1 x2,y2 機器學習的主要目的就是求出a和c的值。也就是確定函式,然後通過函式進行 不論是什麼演算法 模型 構成的方程式是不同的。主要的是求出問題,...