pandas預設的處理物件是dataframe,安裝之後載入
import pandas as pd
dataframe處理經常因為缺失值報錯將df的缺失值成空字串
df = df.fillna('')
writer = pd.excelwriter('data.xlsx')
df1.to_excel(writer,sheet_name='sheet_1')
df2.to_excel(writer,sheet_name='sheet_2')
writer.close()
pd.read_csv(『xx.csv』,header=none)
header:若第一行列名,需要設定header=none 重置列名,設定names=[『a』,『b』,『c』]
sep:設定分隔符,比如以\t為分隔符需要設定,sep=』\t』
encoding:編碼格式,比如encoding=『utf-8』,經驗是在windows環境下使用excel改過的csv,會變成gbk編碼
na_filter:是否檢查丟失值(空字串或者是空值)。對於大檔案來說資料集中沒有空值,設定na_filter=false可以提公升讀取速度。
error_bad_lines:讀取檔案報錯:expect 7 fields, saw 8之類的,如果這行不重要的話,跳過這一行,可設定error_bad_lines=false
skip_blank_lines :如果為true,則跳過空行;否則記為nan。
parse_dates:將某幾列解析成date型別,可設定parse_dates=[『a』]
keep_date_col : 如果連線多列解析日期,則保持參與連線的列。預設為false。
安裝 pip install pandarallel
首先 from pandarallel import pandarallel
初始化pandarallel.initialize() # 列印進度條
列印進度條pandarallel.initialize(progress_bar=true)
設定並行程序數pandarallel.initialize(progress_bar=true,nb_workers=2)
from pandarallel import pandarallel
df = pd.dataframe(np.random.random((10000,2)))
df.columns = ['a','b']
pandarallel.initialize(progress_bar=true,nb_workers=2) # 列印進度條
print(df.head())
結果
結果
pandas 個人使用筆記
主要是使用 pandas 過程中問題的記錄,避免重複搜尋 讀檔案 val x pd.read csv val feature.csv 分塊讀取 reader pd.read csv file,iterator true,error bad lines false chunk reader.get c...
pandas常用筆記
1.ix iloc loc 這三個都是用於索引資料的。import numpy as np import pandas as pd data np.arange 12 reshape 3,4 df pd.dataframe data df.loc 0 okdf.iloc 0 okdf.index a...
Vim 使用筆記
set hlsearch set nohlsearch 搜尋後清除上次的加亮 nohl nohlsearch 拷貝 很有用的一句話,規定了格式選項,讓它換行不自動空格 set formatoptions tcrqn set fo r set noautoindent 再 shift insert 正...