從公司維度分析不同公司對落戶人數指標的影響 , 即什麼公司落戶人數最多也更容易落戶
從年齡維度分析不同年齡段對落戶人數指標影響 , 即什麼年齡段落戶人數最多也更容易落戶
從百家姓維度分析不同姓對落戶人數的指標影響 , 即什麼姓的落戶人數最多即也更容易落戶
不同分數段的佔比情況
# 導入庫
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager
#讀取資料(檔案) , 並檢視資料相應結構和格式
# 1. 公司維度---人數指標
# 對公司進行分組聚合 , 並檢視分數的相關資料 (個數 , 總分數 , 平均分 , 人數佔比)
group_company = lh_data.groupby('company',as_index=false)['score'].agg(['count','sum','mean']).sort_values('count',ascending=false)
#更改列名稱
group_company.rename(columns=,inplace=true)
#定乙個函式 , 得到佔比
def num_percent(people_num=1,people_sum=1):
return str('%.2f'%(people_num / people_sum * 100))+'%'
#增加乙個佔比列
#檢視只有乙個人落戶的公司 布林索引
# 2.年齡維度----人數指標
#將出生年月轉為年齡
lh_data['age'] = (pd.to_datetime('2019-09') - pd.to_datetime(lh_data['birthday'])) / pd.timedelta('365 days')
# 分桶
# 3. 姓維度----人數指標
# 增加姓列
#定義乙個函式 得到姓名的姓
def get_fname(name):
if len(str(name)) <= 3:
return str(name[0])
else:
return str(name[0:2])
# 對姓進行分組
group_fname = lh_data.groupby('fname')['score'].agg(['count','sum','mean']).sort_values('count',ascending=false)
# 更改列名稱
group_fname.rename(columns=,inplace=true)
# 增加佔比列
# 4. 檢視分數段佔比
# 分桶 將分數劃分為乙個個的區間
bins_score = pd.cut(lh_data['score'],np.arange(90,130,5))
# 將分數裝入對應的桶裡
bins_score_group = lh_data['score'].groupby(bins_score).count()
# 更改索引顯示格式
總結1.pandas的繪圖方法不夠靈活 , 功能也不夠強大 , 最好還是使用matplotlib繪圖
2.記住資料分析最重要的兩個方法 分組: groupby() 和 分桶:cut() , 前者一般用於離散的資料(姓,公司) , 後者用於連續資料 (年齡段,分數段)
資料分析(北京落戶)
1.載入資料 luohu data pd.read csv bj luohu.csv index col id 2.檢視匯入資料的基本資訊 luohu data.head 預設顯示資料前5行 data.tail 後5行 觀察到資料有哪些字段,簡單瀏覽資料資訊 各欄位是否有空值 可以看到原始資料已經處...
使用者資料分析模型
大智 jack.lee312 gmail.com 2007 11 13 在開始進行使用者分類之前,面對的是乙個未知的資料庫,不知道哪些人使用得多?哪些人使用得少?多的多多少?少的少多少?多多少才算多?少多少才算少?不把這些概念轉化成準確資料支援的清晰認識,就不可能把握產品執行和使用者使用的現狀,也就...
善用CRM提公升客戶資料分析能力
大資料時代企業可以不懂複雜的演算法,對資料卻要保持高度敏感 不斷提公升自己的資料分析能力才能順應時代發展。客戶是企業核心資源,對客戶資料的初級處理可以完成基本業務過程,對資料的高階處理可以提供企業決策支援 促進銷售 保持銷售群體的穩定。crm可以幫助企業提公升客戶資料分析能力。crm覆蓋全客戶生命週...