【思考】知道資料載入的方法後,試試pd.read_csv()和pd.read_table()的不同,如果想讓他們效果一樣,需要怎麼做?了解一下』.tsv』和』.csv』的不同,如何載入這兩個資料集?
【答】tsv與csv的區別:
從名稱上即可知道。
tsv是用製表符(tab,』\t』)作為字段值的分隔符;iana規定的標準tsv格式,字段值之中是不允許出現製表符的。
csv是用半形逗號(』,』)作為字段值的分隔符;
【思考】什麼是逐塊讀取?為什麼要逐塊讀取呢?
【答】是指通過指定乙個chunksize分塊大小來逐步讀取檔案,因為pandas讀取檔案時候常常通過大檔案,這樣可以減小對電腦記憶體的壓力。
值得注意的是這裡返回的df2是乙個可迭代的物件textfilereader,可以通過for chunk in df: 迭代
【思考】對於乙個資料,還可以從哪些方面來觀察?找找答案,這個將對下面的資料分析有很大的幫助
【答】檢視每列的平均數,zip大數,平均數等等
【思考】還有其他的刪除多餘的列的方式嗎?
【總結】通過pandas刪除列有以下幾種情況
1.del df[『columns』] #改變原始資料
2.df.drop(『columns』,axis=1)#刪除不改表原始資料,可以通過重新賦值的方式賦值該資料;df.drop(『columns』,axis=1,inplace=true) #改變原始資料
【思考】這個reset_index()函式的作用是什麼?如果不用這個函式,下面的任務會出現什麼情況?
【答】 reset_index()是重置索引,因為前面對資料進行了篩選,所以索引不再是連續的了。而drop=true是表示不想保留原來的index,預設 false。
爬蟲第一次打卡
url data headers response requests.post url,data data,headers headers 發起請求 json data response.json print json data import requests from bs4 import bea...
python第一次打卡
號 表示注釋,作用於整行 多行注釋,用三個雙引號 運算子分為算術運算子 比較運算子 邏輯運算子 位運算子 三元運算子 其他運算子 運算子的優先順序 一元運算子優於二元運算子,先算術運算,後移位運算,最後位運算,邏輯運算最後結合。is,is not 對比的是兩個變數的記憶體位址 對比的是兩個變數的值 ...
Datawhale 第一次打卡
開源內容 1.enumerate enumerate is a built in function of python.my list banana grapes pear for c,value in enumerate my list,1 print c,value 類似於對錶進行排列,方便讀取...