一維陣列 與 numpy的array 以及 list相似 series 可以儲存不同型別的資料
理解成seires的一種容器
s= pd.series([1,2,3,np.nan,4,5],index=[a,b,c,d,e,f])
返回左側為下標 一般為數字,可以額外指定 但是資料型別必須統一
pd的索引下標就是行標籤
s.index 返回索引資訊
s.values 返回值
s[0] 返回第乙個值
s[2:5]
s.index.name=「索引」 讓索引列headerview為: 索引
s.index=list(『abcdef』) 相當於 s=pd.series([1,2,3,np.nan,4,5],index=[a,b,c,d,e,f])
使用字母切片的時候 是閉區間
dataframe 是個二維陣列
df=pd.dataframe(np.random.randn(6,4)
生成乙個6行4列的二維陣列
0 1 2 3
0 -1.004211 0.228841 0.494869 -1.019319
1 -0.833322 -1.333550 0.113505 1.963115
2 -0.703133 0.732903 0.146812 -0.066615
3 1.185536 0.352014 0.960584 -1.706782
4 0.290114 -0.076001 0.241904 -0.593647
5 -1.047212 2.111794 -0.065611 0.988204
通過index 來指定行索引 通過columns 來指定列索引的名稱
df =pd.dataframe( np.random.randn(6,4),index=date,columns=list(『abcd』))
a b c d
2019-01-01 0.258845 -1.756340 -0.338932 -0.543527
2019-01-02 1.621580 0.183436 0.258314 1.313766
2019-01-03 -0.973349 -1.334124 -0.638793 0.452062
2019-01-04 0.663128 0.452959 1.166851 -0.737856
2019-01-05 0.568413 -0.289317 -1.577237 -0.171491
2019-01-06 1.575756 -0.978803 0.728931 -0.460711
df2=pd.dataframe()
類別是不限制的 但是每列的資料必須是一樣的 每列之間可以不同
字典裡面的key代表索引列 value 是可以能夠轉化為series的物件
a b c d e f
0 1.0 2019-01-01 1.0 3 test abc
1 1.0 2019-01-01 1.0 3 train abc
2 1.0 2019-01-01 1.0 3 test abc
3 1.0 2019-01-01 1.0 3 train abc
df.head(10) 如果不填寫則預設前五行
df.tail(3) 顯示後3行
df.dtypes 顯示每列的資料型別
df.index 顯示每行的索引
df.columns 顯示每列的索引名稱
df.values 顯示資料
df=pd.read_excel(『kkkkk』) 'kkkkk』是本目錄下檔案或者檔案的絕對路徑\
pd.read_excel 詳細了解一下。比如多個sheet如何選中其中乙個,還有選擇某個區域匯入。。等等
csdn鏈結
df.iloc[0] 顯示第一行的資訊
df.iloc[0:5] 左閉右開的取件
df.loc[0:5] 閉區間
新增一行
先構造字典資料
dit=dit=
s=pd.series(dit)
s.name=38738
刪除一行df=df.drop([series.name])
列名稱
df.columns
檢視某列的資訊
df[『名字』][:5] 檢視 名字 列 前5行的資料
df[[『名字』,『型別』]] 檢視多列的資料
增加一列
df[『序號』]=range(1,len(df)+1)
刪除一列
df.drop(「序號」,axis=1) 因為不是drop行 要寫明白 列名「序號」 , axis=0 是行 axis=1 為列
df.loc[1,『名字』] 返回 第二行 名字列的資料
df.loc[[行標籤],[列標籤]]
df[「產地」] == 「美國」 得到df中產地是美國的乙個 bool series
再根據bool資料進行選擇
df[df[『產地』]==「美國」] 篩選出符合條件的資料
df[df[『產地』]==「美國」][:5]選出前五行\
df[(con_1)&(con_2)] 兩個條件 & and 的關係
df[(df.產地==「美國」) & (df.評分》()]
df[((con_1)|(com_2))&(con_3)]
方法 說明
dropna
fillna
isnull
notnull\
方法說明
dropna
根據標籤中的缺失值進行過濾,刪除缺失值
fillna
對缺失值進行填充
isnull
返回乙個布林值物件,判斷哪些值是缺失值
notnull
isnull的否定式
判斷缺失值
df.isnull()
df[『columns_name』].isnull() 判斷某列缺失值 返回 bool值
df[df[『columns_name』].isnull()] 返回 缺失值的dataframe
填充缺失值
df[『評分』].fillna(0,inplace=true) 用 數字 0 填充評分列缺失值,並且直接替換原資料、
df1=df.fillna(「未知資料」) 會將所有控制都填充為 「未知資料」 謹慎使用。
刪除缺失值
df.dropna()
引數: how=「all」 刪除全未控制的行或者列
inplace=true 覆蓋之前的資料 df 會變成刪除掉缺失值之後的陣列
axis=0 選擇行或者列\
一般異常值都很少,在不影響資料整體份的情況下,直接刪除就好了
df=df[df.投票人數》0] 直接篩選出合理數值
完成資料處理之後,我們將資料儲存到excel中
df.to_excel(「filename」) filename 未絕對或者相對路徑 是資料儲存的位置
MySQL初級培訓 Mysql初級學習
此篇文章前提是大家已經在自己的電腦上安裝好相應的環境。下面介紹mysql的基本命令 mysql uroot p 進入mysql 如圖所示證明成功了,show databates 檢視已有資料庫,此時我的資料庫有這麼多,python3是我自己建立的,create database python3 ch...
List,Set,Map初級學習
1.list和set都繼承自collection,map繼承自己的介面 2.list包含arraylist 底層為陣列,查詢快,增刪慢,執行緒不安全,效率高 vector 底層為陣列,查詢快,增刪慢,執行緒安全效率低 linkedlist 底層為鍊錶,查詢慢,增刪快,執行緒不安全效率高 3.set ...
Pandas學習筆記 Pandas概覽(一)
pandas是python的核心資料分析支援庫,提供了快速 靈活 明確的資料結構,旨在簡單 直觀的處理關係型 資料型的資料。pandas適用於處理以下型別的資料 維數名稱描述1 series 帶標籤的一維同構陣列 2dataframe 帶標籤的,大小可變的,二維異構 pandas資料結構就像是低維資...