檢視是否存在重複值:
data.duplicated().any()
資料型別轉換:
data[id]=data['id'].astype(str)
data['custom_amt']=data['custom_amt'].str[1:].astype(float)
data['order_date']=pd.to_datetime(data['order_date'],format='%y年%m月%d日')
檢視變數是否存在空值及所佔比列:
data.isnull().sum()/data.shape[0]
空值刪除三部曲:
x = data.gender.isnull()
na_index = data.index[x]
new2_data = data.drop(labels=na_index,axis=0)
new2_data.isnull().any()
空值填充:
data.fillna(value=,inplace=true)
data.isnull().any()
matplotlib中文及正負號顯示問題:
import matplotlib.pyplot as plt
plt.rcparams['font.sans-serif'] = ['simhei'] #用來正常顯示中文標籤
plt.rcparams['axes.unicode_minus'] = false # 顯示正負號
plt.style.use('ggplot')
%matplotlib inline
基於箱線圖異常值的探測:
q1 = data.counts.quantile(q=0.25)
q3 = data.counts.quantile(q=0.75)
low = q1-1.5*(q3-q1)
up = q3+1.5*(q3-q1)
data.counts[(data.countsup)]
資料分析學習筆記
資料分析的常規步驟 1.確定問題 2.分解問題 3.評估問題 4.制定相應的決策 用一句話概括就是 現有的資料能否解決現在的問題,分析問題的瓶頸所在,評估分析的方式方法,找到最合理的資料分析方案進行實施。資料分析的模型沒有統一的模型,每乙個公司都有自己的業務線跟使用者群裡,使用者的屬性不同,行為軌跡...
資料分析學習筆記
row number over partition by col1 col2 order by col1 asc desc col2 asc desc 函式說明 可以用於開窗,排序,計數,返回當前視窗的排序值。引數說明 partition by col1 col2.指定開視窗的列。order by ...
1 資料分析
資料分析 1.資料分析定義 2.資料分析的作用 3.資料分析的基本步驟 3.1明確分析目的和思路 3.2資料收集 3.3資料處理 3.4資料分析 過程中的重點,必須確保正確 3.5資料展現 3.6報告撰寫 4.資料分析行業前景 4.1蓬勃發展的趨勢 4.2資料分析師職業要求 5.隨著科技發展帶來的挑...