動手學pandas S1檔案讀取與資料型別

2021-10-05 06:51:36 字數 1766 閱讀 9127

1.3 常用基本函式

1.4 排序

2 問題與練習

這個主要是對pandas官方文件的學習與做練習

使用的ide是jupyter,基於web的互動式程式設計

掌握常見檔案格式的讀寫操作

理解並熟悉 series 和 dataframe 的重要屬性和重要方法

掌握各類排序(索引排序和值排序、單級排序和多級排序)

1、讀取

重要點就是 檔案的路徑問題:絕對路徑與相對路徑

檔案讀取路徑問題:

絕對路徑:f=open(『e:/學習相關/python/資料樣例/使用者側資料/賬單.csv』)

df=pd.read_csv(f)

相對路徑:和ipy程式為相對起點; 必須以後都盡量使用相對路徑

df = pd.read_csv(『data/table.csv』)

df.head()

主要讀取格式:csv xlx txt 格式

2、寫入

主要是寫入 csv和xls格式

df.to_csv(『data/new_table.csv』)

seris的建立,屬性,方法;

**示例:

dataframe的建立,屬性,方法,刪除,新增

**示例:

df.set_index(『math』).head() #set_index函式可以設定索引,將在下一章詳細介紹

df.sort_values(by=『class』).head() # 按照class 的值進行排序

【問題一】 series和dataframe有哪些常見屬性和方法?

答:常見屬性:index name dtype value

【問題二】 value_counts會統計缺失值嗎?

答:不會,統計非缺失值

【問題三】 與idxmax和nlargest功能相反的是哪兩組函式?

答:idxmin 和 nsmallest

【問題四】 在常用函式一節中,由於一些函式的功能比較簡單,因此沒有列入,現在將它們列在下面,請分別說明它們的用途並嘗試使用。

sum求和/mean求均值/median中位數/mad/min最小值/max最大值/abs絕對值/std/var方差/quantile/cummax/cumsum/cumprod

【問題五】 df.mean(axis=1)是什麼意思?它與df.mean()的結果一樣嗎?第一問提到的函式也有axis引數嗎?怎麼使用?

答:結果不一樣:df.mean()是對數值型資料求平均值,每乙個col對應的平均值,df.mean(axis=1)是全部展開了; seris裡面沒有 dataframe裡面有,使用方法一樣;

1、《權利的遊戲》劇本資料集分析

(a)在所有的資料中,一共出現了多少人物?

df[『name』].nunique() 564

(b)以單元格計數(即簡單把乙個單元格視作一句),誰說了最多的話?

df[『name』].value_counts() tyrion lannister 1760

(c)以單詞計數,誰說了最多的單詞?

不會,不知道怎麼統計一句話裡面有多少單詞呢?

2、科比投籃資料集分析

(a)哪種action_type和combined_shot_type的組合是最多的?

df[『action_type』].value_counts() 18880

(b)在所有被記錄的game_id中,遭遇到最多的opponent是哪乙個?

不知道什麼意思?

1 檔案測試 2 檔案操作

1 檔案測試函式 2 檔案操作 新建檔案 fopen filename,w 以 寫 的方式開啟乙個不存在的檔案,就會新建該檔案 檔案刪除 unlink 檔案複製 copy filename,aaa bb.txt 盡量使用 和相對路徑,因為linux只認 也沒有磁碟分割槽,而windows 和 都認 ...

1 檔案上傳

當上傳乙個檔案時,會先將其作為臨時目錄傳到伺服器,如果不將其啟動到其它目錄,就會刪除。php上傳後端 upload.php uname post uname echo uname.1.首先判斷是否出錯 if files userfile error 0 2.判斷上傳型別是否符合規定 echo fil...

C 輸入 2 檔案讀取

記錄以檔案方式讀取資料。如從檔案data.txt中讀取資料,檔案內容如下 0 0 3 82 2 1 15 3 4 86 3 5 46 4 7 5 思路 先通過檔案的行數,得到樣本個數,再建立動態陣列,逐個讀取資料。變數定義 define max sample num 100 最大樣本個數 doubl...