這是一篇機器學習的介紹,本文不會涉及公式推導,主要是一些演算法思想的隨筆記錄。
適用人群:機器學習初學者,轉ai的開發人員。
程式語言:python
自己在專案中經常用到pandas,尤其是資料分析與資料預處理這兩部分,自己最直接的感受就是pandas像是sql+excel,當然,pandas的功能遠不止這些。
(注:以下pd均表示pandas,df指pandas物件)
pandas獲取某列資料,可以通過列名[『column』]獲取,可以通過資料切片來獲取,資料切片既可以獲取列(特徵),也可以獲取行(記錄),.ix[row,column]:
df[
'name'
,'date'
]df.ix[:3
,:2]
df.ix[:3
,[x for x in df.columns if
'width'
in x]
]
pandas中遍歷資料,可以使用迭代器的方式:
dataframe.iterrows()
for index, row in df.iterrows():
print row[
"c1"
], row[
"c2"
]
new_df = df.
(lambda x: x *
2)
drop()
df = df.drop(
['desc'
,'url'
],axis=
1)
pandas進行資料篩選,方式很多,也很靈活,類似於sql中的where條件過濾:
df[df[
'name']==
'haozk'
]df[
~(df[
'name']==
'haozk')]
df[(df[
'age'
].astype(
int)
==35)&
(df['height]
>
170.5
)]
pandas進行資料拼接,比如在資料預處理階段,對某些特徵進行了特徵編碼,尤其是進行了one-hot-encoding處理,特徵列會增多,或者進行了特徵列的篩選,需要進行資料拼接(當然,資料切片也可以做到),再或者是計算資料的交集、差集、並集等,資料拼接的方法有concat()、merge()、join(),由於篇幅有限,可參照如下博文:
資料合併與重塑:concat篇
資料合併與重塑:join/merge篇
機器學習 pandas庫使用
關於pandas庫中dataframe的使用,dataframe表示的是乙個有序的 dataframe有自己的行索引和列索引,這與series不同,series只有列索引,dataframe每一列,每一行都可以是不同的資料型別,接下來讓我們來看一下dataframe的使用 import pandas...
機器學習之pandas
import pandas as pd a pd.read csv 檔案路徑 讀取檔案 a.head 顯示的條數 顯示前部分資料 a.tail 顯示的條數 顯示後部分資料 a.columns 輸出列 a.loc 序列號 輸出乙個樣本 a.columns.tolist 將列轉換成列表 c.endwit...
Python 機器學習 Pandas
import pandas pandas 資料預處理非常很好使用 檢視資料 pandas詳細說明 讀取.csv檔案 輸入絕對路徑,同檔案可以相對路徑 print type food info 資料型別 dataframe 有許多行列組成 每一行或列交series print food info.dt...