本文章為系列文章第一篇,首先宣告文章內容均來自《利用python進行資料分析》,所有例子均在python3下完成。要完成例子首先需要安裝python3環境,然後要安裝numpy,panads等模組。
panads提供了一些方便的方法將**資料讀取為dataframe物件的函式。
read_csv
從檔案,url,檔案型物件中載入資料。預設逗號分隔
read_table
預設製表符('\t')分隔
read_fwf
讀取定寬資料,無分隔符
read_clipboard
讀取剪貼簿資料
read_csv和read_table是最常用的。
read_csv預設逗號為分隔符,所以讀取.csv檔案是不需要指定分隔符,當用read_table時需要指定sep=','
上面的檔案中檔案第一行被當作列名,當檔案中沒有列名時可以使用預設的列名或自定義列名,當指定用預設列名時只要指定header=none自己指定列名只要指定names引數
如果想要將message列作為dataframe的索引可以知道index_col引數為'message'
如果需要層次化索引則需要傳人有列名組成的列表
有些檔案可能格式不是用固定分隔符分隔的,裡面可能有數量不等的空白符等,如果手工調整則太麻煩,可以使用正規表示式,比如對數量不等的空白符可以用\s+
在收集資料時由於各種原因,不可避免出現資料丟失,對於丟失資料pandas也提供了很好的處理辦法。預設情況下pandas會用nan識別缺失值。
使用者也可以自己指定缺失值,比如'指定foo'表示的值都是缺失的
有時候檔案太大,我們只想看前幾行,這時可以指定nrows引數
前面講的都是如何讀取檔案,其實pandas也可以方便的以各種格式各種分隔符將資料寫入檔案,只需要使用dataframe的to_csv就可以將資料以逗號分隔的方式寫入檔案。當然還可以用其他分隔方式。
這裡將資料寫到標準輸出,並以|分隔
上面的缺失值被用空白字元表示,使用者也可以自己指定,比如用null代替
還可以指定寫入時不寫入行列的標籤,同時還可以指定寫入哪幾列並以指定順序寫入
pandas也提供了處理json檔案的簡單方法,只需要匯入import json模組使用json.loads()方法就可以讀入json檔案,用json.dumps()也可以方便的將python物件轉換為json格式
python 3讀取檔案 Python3 檔案讀寫
python open 方法用於開啟乙個檔案,並返回檔案物件,在對檔案進行處理過程都需要使用到這個函式 1.讀取檔案 with open test json dumps.txt mode r encoding utf 8 as f seek 移動游標至指定位置 f.seek 0 read 讀取整個檔...
python3中文長度 python3獲得漢字長度
import string def str count str 找出字串中的中英文 空格 數字 標點符號個數 count en count dg count sp count zh count pu 0 for s in str 英文 if s in string.ascii letters cou...
Python3 檔案打包與解包
python 中內建了打包的庫,我們直接使用即可 zip usr bin env python3 coding utf 8 import zipfile zip 打包 z zipfile.zipfile black.zip w 建立乙個空包 zip 解包 z zipfile.zipfile blac...