資料分析學習筆記1

2021-10-07 21:09:48 字數 1023 閱讀 3382

檢視是否存在重複值:

data.duplicated().any()

資料型別轉換:

data[id]=data['id'].astype(str)

data['custom_amt']=data['custom_amt'].str[1:].astype(float)

data['order_date']=pd.to_datetime(data['order_date'],format='%y年%m月%d日')

檢視變數是否存在空值及所佔比列:

data.isnull().sum()/data.shape[0]

空值刪除三部曲:

x = data.gender.isnull()

na_index = data.index[x]

new2_data = data.drop(labels=na_index,axis=0)

new2_data.isnull().any()

空值填充:

data.fillna(value=,inplace=true)

data.isnull().any()

matplotlib中文及正負號顯示問題:

import matplotlib.pyplot as plt

plt.rcparams['font.sans-serif'] = ['simhei'] #用來正常顯示中文標籤

plt.rcparams['axes.unicode_minus'] = false # 顯示正負號

plt.style.use('ggplot')

%matplotlib inline

基於箱線圖異常值的探測:

q1 = data.counts.quantile(q=0.25)

q3 = data.counts.quantile(q=0.75)

low = q1-1.5*(q3-q1)

up = q3+1.5*(q3-q1)

data.counts[(data.countsup)]

資料分析學習筆記

資料分析的常規步驟 1.確定問題 2.分解問題 3.評估問題 4.制定相應的決策 用一句話概括就是 現有的資料能否解決現在的問題,分析問題的瓶頸所在,評估分析的方式方法,找到最合理的資料分析方案進行實施。資料分析的模型沒有統一的模型,每乙個公司都有自己的業務線跟使用者群裡,使用者的屬性不同,行為軌跡...

資料分析學習筆記

row number over partition by col1 col2 order by col1 asc desc col2 asc desc 函式說明 可以用於開窗,排序,計數,返回當前視窗的排序值。引數說明 partition by col1 col2.指定開視窗的列。order by ...

1 資料分析

資料分析 1.資料分析定義 2.資料分析的作用 3.資料分析的基本步驟 3.1明確分析目的和思路 3.2資料收集 3.3資料處理 3.4資料分析 過程中的重點,必須確保正確 3.5資料展現 3.6報告撰寫 4.資料分析行業前景 4.1蓬勃發展的趨勢 4.2資料分析師職業要求 5.隨著科技發展帶來的挑...