pandas資料分析讀書筆記(二)

2021-10-07 15:17:10 字數 1534 閱讀 4857

pd.isnull(df),返回空的值為true,非空值為false

最常用的資料載入函式有:read_csv()與read_table()

pd.read_table(sep=),如果是csv檔案,也可以用read_table函式來讀取,只是需要設定分隔符sep

pd.read_csv(header = none, name)

header引數,當檔案沒有標題行時,可以設定這個引數為none

names引數,讀取檔案時,可以指定列名

index_col引數,可以指定某列為dataframe的索引,也可以傳入乙個列表,則會做成乙個層次化索引,也可以是編號

skiprows跳過檔案的某行,比如skiprows[0, 2, 3],則跳過檔案的第一行、第三行和第四行

parse_dates,將資料解析為日期,預設為false,如果為true,則嘗試解析所有列

nrows,需要讀取的行數

skip_footer,需要忽略的行數,從檔案末尾處算起

chunksize,逐塊讀取檔案,該引數用於指定塊大小,返回的是乙個迭代器,每次都根據chunksize讀取一小塊

df.to_csv(),這個函式用於將資料寫到乙個csv檔案中。

引數如下:

na_rep,將空字串表示為別的標記值

index,是否寫入索引

header,是否寫入列名

columns,傳入列名列表,可以指定列輸出的順序

json庫

json.loads(),將json字串轉化為python形式

json.dumps(),將python物件轉換為json形式

pd.read_json(),將json檔案讀取為dataframe

df.to_json(),將資料輸出到json

pd.read_excel(sheet_name = ),讀取excel檔案,sheet_name引數是讀取哪個sheet頁

frame.to_excel(sheet_name),將資料儲存到excel檔案中

df.isnull(),返回乙個只有true和false的df,如果df的值為空,則對應的為true

df.notnull(),與isnull的反義詞

df.dropna(axis = 0, how = ),刪除缺失值,如果是ddataframe物件,那會刪除含有空的行或者烈,預設是丟棄含有缺失值的行,當傳入axis = 1時,刪除有空的列,how=』all』只刪除全部為空的那些行,

df.fillna(value = , method=, inplace = , axis = 0, inpalce = false, limit),填充缺失資料,可以通過method進行填充,可以用ffil和bfill,ffil是向前填充,bfill是向後填充,還可以傳入乙個字典,實現根據不同的列填充不同的值,還可以傳入inplace引數為true,即對現有的物件進行本地修改,還可以傳入平均數等等

df.duplicated(),返回乙個布林型的series,表示各行是否有重複行

df.drop_duplicates(),刪除重複的行,也根據某列獲多列刪除重複項,傳入列名即可

《誰說菜鳥不會資料分析》 讀書筆記二

5 資料分析方法 1 對比分析法 靜態比較 動態比較 靜態 同一時間條件下對不同總體指標的比較,如不同部門 不同地區 不同國家的比較。也稱為橫比 動態 同一總體條件下對不同時期指標數值的比較,也叫縱比。a.實踐運用 對比分析常用的維度 與目標對比 完成值,目標 不同時期對比 環比 同級部門 單位 地...

《商業資料分析》讀書筆記(八)

8.視覺化模型表現 基本概念 各種不確定性之下的模型效能視覺化 進一步思考到底要從資料探勘結果中得到什麼 主要技巧 效益曲線 累加相響應曲線 提公升曲線 roc曲線 排序而不是分類 效益曲線 roc圖和曲線 roc之下的區域 auc 累積響應和提公升曲線 例子 客戶流失模型效能分析 總結第八章 視覺...

《商業資料分析》讀書筆記(十二)

12.其他資料科學任務和技巧 基本概念 我們的作為許多共同資料科學技巧基礎的概念 熟悉資料科學基礎版塊的重要性 共發和關聯 找到互聯的項 衡量驚喜 提公升和槓桿 例子 啤酒和彩票 臉書喜歡之間的關聯 畫像 找到典型行為 關聯 和社交推薦 資料約簡,潛在資訊,和電影推薦 偏差,方差和模型融合 資料驅動...