Python資料分析基礎(四) 資料檔案處理

2021-08-03 00:25:43 字數 1962 閱讀 1216

輸入輸出通常可以劃分為:讀取文字檔案和其他磁碟儲存格式、載入資料庫中的資料、利用web api操作網路資源。

pandas中的解析函式

函式說明

read_csv

從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號

read_table

從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符(「\t」)

read_fwf

讀取定寬列格式資料

read_clipboard

讀取剪貼簿中的資料

read_csv/read_table函式的引數

引數說明

path

表示檔案系統位置、url、檔案型物件的字串

sep或delimiter

用於對行中各欄位進行拆分的字串行或正規表示式

header

用作列名的行號。預設為0(第一行),如果沒有header行就應該設定為none

index_col

用作行索引的列編號或列名。可以是單個名稱/數字或由多個名稱/數字組成的列表(層次化索引)

names

用於結果的列名列表,結合header=none

skiprow

需要忽略的行數(從檔案開始處計算),或需要跳過的行號列表(從0開始)

na_values

一組用於替換na的值

comment

用於將注釋資訊從行尾拆分出去的字元(乙個或多個)

parse_dates

嘗試將資料解析為日期,預設為false。如果為true,則嘗試解析所有列。此外,還可以指定需要解析的一組列號或列名。

keep_date_col

如果連線多列解析日期,則保持參與連線的列。預設為false。

converters

由列號/列名跟函式之間的對映關係組成的字典。如,會對foo列的所有值應用函式f

dayfirst

當解析由歧義的日期時,將其看做國際格式(例如,7/6/2012 -> june 7, 2012)。預設為false

date_parser

用於解析日期的函式

nrows

需要讀取的行數(從檔案開始處計算)

iterator

返回乙個textparser以便逐塊讀取檔案

chunksize

檔案塊的大小(用於迭代)

skip_footer

需要忽略的行數(從檔案末尾處算起)

verbose

列印各種解析器輸出資訊

encoding

用於unicode的文字編碼格式

squeeze

如果資料經解析後僅含一列,則返回series

thousands

千分位分隔符,如","或"."

csv語支選項

引數說明

delimiter

用於分割欄位的單字元字串。預設為","

lineterminator

用於寫操作的行結束符,預設為「\r\n」。讀操作將忽略此選項

quotechar

用於帶有特殊字元(如分隔符)的字段的引用符號。預設為「"」

quoting

引用約定。可選值包括csv.quote_all/minimal/nonnumeric/non。預設為csv.quote_minimal

skipinitialspace

忽略分隔符後面的空白符。預設為false

doublequote

如何處理欄位內的引用符號。如果為true,則雙寫。

escapechar

用於對分隔符進行轉義的字串(如果quoting被設定為csv.quote_non的話)。預設禁用

利用python進行資料分析.    wes mckinney.    唐學韜譯

python基礎資料分析

單樣本t檢驗 乙個連續變數與乙個數值的顯著性關係 sm.stats.descrstatsw a b ttest mean 0.1 0.1為引數 雙樣本t檢驗 乙個分類變數 二分類 與乙個連續變數的顯著性關係 方差齊性檢查 a1 creditcard exp a b 0 c a2 creditcard...

python資料分析基礎

python資料分析基礎 學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,...

python資料分析基礎

學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,來驗證我們之前作出的假設 ...