下面主要使用pandas包裡面的資料載入函式進行講解。
pandas的資料載入函式**:
函式說明
read_csv
從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號
read_table
從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符(「\t」)
read_fwf
讀取定寬列格式資料(也就是說,沒有分隔符)
read_clipboard
讀取剪下板中的資料,可以看做read_table的剪下板版。在將網頁轉換為**時很有用
下面說明read_csv常用引數作用:
引數名作用
header
用作列名的行號。預設為0(第一行),如果沒有header行就應該設定為none
names
用於結果的列名列表,結合header=none
index_col
用作行索引的列編號或列名。可以是單個名稱/數字或由多個名稱/數字組成的列表(層次化索引)
sep或delimiter
用於對行中各欄位進行拆分的字串行或正規表示式!
path
表示檔案系統位置、url、檔案型物件的字串
skiprows
需要忽略的行數(從檔案開始出算起),或需要跳過的行號列表(從0開始)
na_values
一組用於替換na的值
comment
用於將注釋資訊從行尾拆分出去的字元(乙個或多個)
parse_dates
嘗試將資料解析為日期,預設為false。如果為true,則嘗試解析所有列。此外,還可以指定需要解析的一組列號或列名。如果列表的元素為列表或元組,就會將多個列組合到一起再進行日期解析工作(例如,日期/時間分別位於兩個列中)
keep_date_col
如果連線多列解析日期,則保持參與連線的列。預設為false
converters
由列號/列名跟函式之間的對映關係組成的字典。例如:會對foo列的所有值應用函式f
dayfirst
當解析有歧義的日期時,將其看做國際格式(例如,8/6/2017→june8,2017)。預設為false
date_parser
用於解析日期的函式
nrows
需要讀取的行數(從檔案開始處算起)
iterator
返回乙個textparser以便逐塊讀取檔案
chunksize
檔案塊的大小(用於迭代)
skip_footer
需要忽略的行數(從檔案末尾處算起)
verbose
列印各種解析器輸出資訊,比如「非數值列中缺失值的數量」等
encoding
用於unicode的文字編碼格式。例如,」utf-8」表示用utf-8編碼的文字
squeeze
如果資料經解析後僅含一列,則返回series
thousands
千分位分隔符,如「,」或「.」
例如:
假設在』c:\users\administrator』路徑下有檔案』test.abc』以文字格式儲存著:in [26]: %pwd
out[26]: 'c:\\users\\administrator'
則可以這樣讀取:x,y,z,tittle
1,2,3,aa
4,5,6,bb
7,8,9,cc
in [27]: pd.read_csv('test.abc') #基本讀取
out[27]:
x y z tittle01
23 aa14
56 bb27
89 cc
in [28]: pd.read_csv('test.abc',names=['x','y','z','tittle'],index_col='tittle')
out[28]:
x y z
tittle
tittle x y z
aa 123
bb 456
cc 7
89
linux下python學習筆記 十一)資料結構1
這會是非常重要的內容。在python中有三種內建的資料結構 列表 元組和字典。我們將會學習如何使用它們,以及它們如何使程式設計變得簡單。1.列表 list是處理一組有序專案的資料結構,即你可以在乙個列表中儲存乙個序列的專案。列表中的專案應該包括在方括號中,這樣python就知道你是在指明乙個列表。一...
python分析雙十一資料
根據歷年雙十一資料進行多項式回歸 分別用r spss python進行了實現,發現spss結果更好解釋,擬合度達到0.99,將時間資料進行轉為1,2,python的多項式回歸結果還沒太看懂,因為與r執行結果的回歸係數不一樣,希望看到的小夥伴能幫忙解釋下 plt.scatter x,y 圓形點 plt...
十一 資料庫和python
import pymysql 01 連線資料庫 引數1 mysql主機名 192.168.245.1 引數2 使用者名稱 引數3 密碼 引數4 連線資料庫名 db pymysql.connect localhost root root a 02 建立乙個cursor物件 cursor db.curs...