1.關於read_csv和read_table的區別
read_csv和read_table的區別在於separator分隔符。
csv是逗號分隔值(comma-separated values),僅能正確讀入以 「,」 分割的資料。read_table的分隔符是tab
tsv檔案與csv檔案的區別
tsv 是tab-separated values的縮寫,即製表符分隔值。
相對來說csv,comma-separated values(逗號分隔值)更常見一些。
tsv與csv的區別:
1)從名稱上即可知道,tsv是用製表符(tab,』\t』)作為字段值的分隔符;csv是用半形逗號(』,』)作為字段值的分隔符;
2)iana規定的標準tsv格式,字段值之中是不允許出現製表符的。
因此,一般read_table讀取的是tsv檔案,read_csv讀取的是csv檔案。
2.df.head()和df.tail()
分別檢視前x行資料和後x行資料
3.dataframe刪除行和列的方式
刪除多餘的列
方式1:del test_1[『a』]
方式2:
test_1.drop([「a」],axis = 1)
其中,axis=0代表刪除行
區別:del在原始**中改動,而drop不改變原表
如果drop需要改變原表,則增加引數inplace = true
4.關於loc和iloc區別
loc的引數必須是**中的名稱,而iloc的引數為**中的索引。
此外,當取某幾個值時,用單括號,當取一系列值時,去掉單括號。
例子:
Task 1 資料載入及初步觀察 筆記
2 pandas兩常用資料結構 series和dataframe 讀取 可用with open 的方法,也可用pd.read csv 儲存 可用pd.to csv shares.to csv titanic train chinese.csv 相對路徑 當要匯入的檔案在和當前檔案在同乙個目錄下時,直...
Task01 資料載入及探索性資料分析
pandas.read csv 報錯 oserror initializing from file failed,一般由兩種情況引起 一種是函式引數為路徑而非檔名稱,另一種是函式引數帶有中文。對於第一種情況很簡單,原因就是沒有把檔名稱放到路徑的後面,把檔名稱新增到路徑後面就可以了。第二種情況,即使路...
資料分析 Task2 資料清洗及特徵處理
1.重複值,df.duplicated drop duplicates,刪除整行重複值 2.連續型變數離散化 分箱 1.將連續變數age平均分箱成5個年齡段,並分別用類別變數12345表示 df box pd.cut df 年齡 5,labels 1 2 3 4 5 2.將連續變數age劃分為 0,...