import numpy as np
import pandas as pd
import matplotlib as plt
#載入資料檔案
df = pd.read_csv('d:\桌面\python\pythoncourse\第九章-四個例項\python案例資料\python妗堜緥\fifa_2018_player.csv')
#簡單瀏覽資料資訊:重點看看列名,資料型別
df.head()
#瀏覽資料的整體情況(也是用來看看異常值的基本手段)
df.describe()
#看看名字這一列有沒有空值
df[df.name.isnull()]
#看看全名這一列有沒有空值
df[df.full_name.isnull()]
#看看國籍這一列有沒有空值
df[df.nationality.isnull()]
#看看聯賽這一列又沒有空值
df[df.league.isnull()]
#刪除聯賽名為空的資料 通過.index鎖定行(也就是某條資料)
df.drop(df[df.league.isnull()].index, inplace=true)
#看看刪除成功沒有呢
df[df.league.isnull()]
#看看俱樂部有沒有空值
df[df.club.isnull()]
#在前面的describe中我們注意到年齡的最小值是16,那麼有沒有問題呢?
df[df.age == 16] #df[df['age'] == 16]
#在前面的describe注意到薪酬的最小值出現0,重點來看看這些資料
df[df['eur_value'] < 1000]
#用薪酬的平均值來填充這些薪酬為0的資料列,如果資料量少也可以直接刪除
df['eur_value'].replace(0,df['eur_value'].mean(), inplace = true)
#看看填充後還有沒有異常情況
df[df['eur_value'] < 1000]
#周薪是否也有過小的情況
df[df['eur_wage'] < 1000]
#看看資料中有沒有完全重複的資料
df[df.duplicated()]
#看看以下的列有沒有重複值
df[df.loc[:,['full_name', 'nationality', 'league', 'club', 'birth_date']].duplicated()]
#全名這一列是唯一值的條數與總資料的條數的比較:這樣可以快速知道全名有多少個重複值
len(df.full_name.unique()), len(df)
#也可以通過.duplicated這個方法來看
df[df.full_name.duplicated(keep=false)]
#取出其中的乙個重複值的判斷~
df[df.full_name == 'lars bender']
#資料清洗完畢
#通過df.count()來檢視各列的資料完整性
df.count()
#也可以通過df.describe來粗略地看看
df.describe()
#總國籍這個維度上來看看每個國家的足球運動員有數量並以降序排列
nationality_data = df.groupby('nationality', as_index = false).count()
[['nationality', 'id']]
nationality_data.rename(columns=, inplace = true)
nationality_sorted_data = nationality_data.sort_values('player_count', ascending=false)
nationality_sorted_data[nationality_sorted_data.player_count > 100]
league_data = df.groupby('league', as_index=false).count()[['league','id']].sort_values('id',ascending = false)
league_data
df.groupby('club',as_index = false).mean()[['club', 'eur_wage']].sort_values('eur_wage', ascending = false)
bins = np.arange(15, 50, 5)
bins_data = pd.cut(df['age'], bins)
bin_counts = df['age'].groupby(bins_data).count()
bin_counts
bin_counts
bin_counts.index = [str(x.left) + '-' + str(x.right) for x in bin_counts.index]
# print(bin_counts.plot(kind='pie'))
bin_counts.plot(kind = 'bar', alpha = 1, rot = 0)
資料分析基礎複習
資料分析複習 什麼是資料分析 通過對資料的蒐集 整理 清洗,提取資料的潛在特徵,找到資料的隱藏規律,發現潛在目標及價值。怎麼實現分析目標 借助於一些工具及演算法 資料採集 資料分析 資料視覺化 信用卡盜刷分析 1.分析審視資料 2.特徵工程 畫出直方圖,找出分布有明顯區別的變數,是對分類目標 信用卡...
大資料分析複習筆記
資料探勘 有效性 可用性 出乎意料 可理解性 假設有圖 其鄰接矩陣 m為 帶入公式迭代,結果為 最終,rm 1 而 ry ra 0 這從漫步者的角度很好理解,在經過一段時間之後,漫步者到達了 m 節點,然而 m 節點只有指向自己的鏈結,然後就只能一直停留在 m,所以最後的概率一定是1,而其他兩個節點...
Python資料分析入門實戰專案
首先匯入要使用的科學計算包numpy,pandas,視覺化matplotlib,seaborn,以及機器學習包sklearn。import pandas as pd import numpy as np import seaborn as sns import matplotlib as mpl i...