python 資料探索

2021-09-25 18:47:11 字數 645 閱讀 4869

import pandas as pd

# 資料載入

train_data = pd.read_csv('./titanic_data/train.csv')

test_data = pd.read_csv('./titanic_data/test.csv')

# 資料探索

#info() 了解資料表的基本情況:行數、列數、每列的資料型別、資料完整度

print(train_data.info())

print('-'*30)

#describe() 了解資料表的統計情況:總數、平均值、標準差、最小值、最大值

print(train_data.describe())

print('-'*30)

#describe(include=['o']) 檢視字串型別(非數字)的整體情況

print(train_data.describe(include=['o']))

print('-'*30)

#head() 檢視前幾行資料(預設是前五行)

print(train_data.head())

print('-'*30)

#tail() 檢視後幾行資料(預設是最後五行)

print(train_data.tail())

Python資料分析專題 資料探索分析

資料探索 2.統計分析 抽樣2.2 點估計與置信區間 2.3 概率分布 2.4 檢驗 2.5 卡方檢驗 2.6 anova 2.7 ab測試 2.8 態分布 按資料型別選分析方式 3.估計 se.mean axis 1 求行的均值 se.median plt.vlines se.mean ymin ...

Python資料探勘 第3章 資料探索

離群點 異常值 定義為小於ql 1.5iqr或大於qu 1.5iqr import pandas as pd catering sale data catering sale.xls 餐飲資料 data pd.read excel catering sale,index col u 日期 讀取資料,...

資料探勘 資料探索

資料探索 根據觀測 調查收集到初步的樣本資料集後,接下來要考慮的問題是 樣本資料集的數量和質量是否滿足模型構建的要求?有沒有出現從未設想過的資料狀態?其中有沒有什麼明顯的規律和趨勢?各因素之間有什麼樣的關聯性?資料探索就是通過檢驗資料集的資料質量 繪製圖表 計算某些特徵量等手段,對樣本資料集的結構和...