1.3 常用基本函式
1.4 排序
2 問題與練習
這個主要是對pandas官方文件的學習與做練習
使用的ide是jupyter,基於web的互動式程式設計
掌握常見檔案格式的讀寫操作
理解並熟悉 series 和 dataframe 的重要屬性和重要方法
掌握各類排序(索引排序和值排序、單級排序和多級排序)
1、讀取
重要點就是 檔案的路徑問題:絕對路徑與相對路徑
檔案讀取路徑問題:
絕對路徑:f=open(『e:/學習相關/python/資料樣例/使用者側資料/賬單.csv』)
df=pd.read_csv(f)
相對路徑:和ipy程式為相對起點; 必須以後都盡量使用相對路徑
df = pd.read_csv(『data/table.csv』)
df.head()
主要讀取格式:csv xlx txt 格式
2、寫入
主要是寫入 csv和xls格式
df.to_csv(『data/new_table.csv』)
seris的建立,屬性,方法;
**示例:
dataframe的建立,屬性,方法,刪除,新增
**示例:
df.set_index(『math』).head() #set_index函式可以設定索引,將在下一章詳細介紹
df.sort_values(by=『class』).head() # 按照class 的值進行排序
【問題一】 series和dataframe有哪些常見屬性和方法?
答:常見屬性:index name dtype value
【問題二】 value_counts會統計缺失值嗎?
答:不會,統計非缺失值
【問題三】 與idxmax和nlargest功能相反的是哪兩組函式?
答:idxmin 和 nsmallest
【問題四】 在常用函式一節中,由於一些函式的功能比較簡單,因此沒有列入,現在將它們列在下面,請分別說明它們的用途並嘗試使用。
sum求和/mean求均值/median中位數/mad/min最小值/max最大值/abs絕對值/std/var方差/quantile/cummax/cumsum/cumprod
【問題五】 df.mean(axis=1)是什麼意思?它與df.mean()的結果一樣嗎?第一問提到的函式也有axis引數嗎?怎麼使用?
答:結果不一樣:df.mean()是對數值型資料求平均值,每乙個col對應的平均值,df.mean(axis=1)是全部展開了; seris裡面沒有 dataframe裡面有,使用方法一樣;
1、《權利的遊戲》劇本資料集分析
(a)在所有的資料中,一共出現了多少人物?
df[『name』].nunique() 564
(b)以單元格計數(即簡單把乙個單元格視作一句),誰說了最多的話?
df[『name』].value_counts() tyrion lannister 1760
(c)以單詞計數,誰說了最多的單詞?
不會,不知道怎麼統計一句話裡面有多少單詞呢?
2、科比投籃資料集分析
(a)哪種action_type和combined_shot_type的組合是最多的?
df[『action_type』].value_counts() 18880
(b)在所有被記錄的game_id中,遭遇到最多的opponent是哪乙個?
不知道什麼意思?
1 檔案測試 2 檔案操作
1 檔案測試函式 2 檔案操作 新建檔案 fopen filename,w 以 寫 的方式開啟乙個不存在的檔案,就會新建該檔案 檔案刪除 unlink 檔案複製 copy filename,aaa bb.txt 盡量使用 和相對路徑,因為linux只認 也沒有磁碟分割槽,而windows 和 都認 ...
1 檔案上傳
當上傳乙個檔案時,會先將其作為臨時目錄傳到伺服器,如果不將其啟動到其它目錄,就會刪除。php上傳後端 upload.php uname post uname echo uname.1.首先判斷是否出錯 if files userfile error 0 2.判斷上傳型別是否符合規定 echo fil...
C 輸入 2 檔案讀取
記錄以檔案方式讀取資料。如從檔案data.txt中讀取資料,檔案內容如下 0 0 3 82 2 1 15 3 4 86 3 5 46 4 7 5 思路 先通過檔案的行數,得到樣本個數,再建立動態陣列,逐個讀取資料。變數定義 define max sample num 100 最大樣本個數 doubl...