1.pandans介紹:主要用於資料的處理和計算,提供了大量的庫。對於機器學習來說,大部分的工作在於資料的清洗和操作,例如讀取資料,對資料的分析等等。
2.pandas基本資料結構:
案例分析:read_csv讀取檔案後,dataframe資料型別的操作
# read_data是dataframe型別,會標識行的個數以及每列的資訊
read_data = pd.read_csv('./data/test.csv')
# 獲取和列印整個資料,以dataframe的形式和矩陣的形式
print(read_data, read_data.values)
# 獲取和列印前三行的資料資訊,分別為dataframe 和 矩陣的資料型別
print(read_data[0:3], read_data[0:3].values)
# 獲取和列印某一列的資料資訊,必須用矩陣的形式,dataframe沒有提供列雜湊查詢
print(read_data.values[:, 1])
# 如果知道某列的含義標識,那麼可以直接再dataframe型別下雜湊查詢,結果還是dataframe型別,再轉換成矩陣型別
print(read_data['id'], read_data['id'].values)
# 將篩選出來的列用圖描述
read_data['id'].plot(figsize=(5,6)) # 設定圖大小
plt.show()
# 選擇多列
print(read_data[['id', 'col_10']])
# 選擇多列以及篩選行
print(read_data[['id', 'col_10']][1:5])
# 統計列的值出現次數, 若需要出現次數的前10個,訪問列表前十,並顯示下
print(read_data['id'].value_counts(), read_data['id'].value_counts()[:10])
read_data['id'].value_counts()[:10].plot(kind='bar')
plt.show()
以上是對讀取資料的簡單操
python初探 pandas使用
pandas 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法,pandas為時間序列分析提供了很好的支援。series 和 data...
Pandas學習筆記(1)
1 pandas簡介 pandas 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法。你很快就會發現,它是使python成為強大而高效...
初探pandas 安裝和了解pandas資料結構
通過python pip安裝pandas pip install pandaspandas常用資料結構包括 series和dataframe series是一種一維的陣列型物件,包含乙個值序列 與numpy中的資料型別相似 資料標籤 稱為索引 index import pandas as pd 建立...