資料分析(北京落戶)

2021-10-01 08:01:48 字數 3412 閱讀 6016

1.載入資料

luohu_data = pd.read_csv(

'./bj_luohu.csv'

, index_col=

'id'

)

2.檢視匯入資料的基本資訊()

luohu_data.head(

)# 預設顯示資料前5行 data.tail()後5行

# 觀察到資料有哪些字段,簡單瀏覽資料資訊

)# 各欄位是否有空值

# 可以看到原始資料已經處理過。一般會有資料清洗的步驟

)# 描述性統計分析:個數,平均值,極值,四分位數

分析要有目標。哪些作為維度,哪些作為指標。

以公司作為維度

groupby 這個python有,sql裡有,excel裡的資料透視也有相似功能。

資料分析有很多方法,選擇最合適的。

company_data = luohu_data.groupby(

'company'

,as_index=

false

).count()[

['company'

,'name']]

# 每個公司出現的次數

# 不以company作為索引,只取『company』和『name』兩列

# 將列的名字重新命名 inplace=true 常見,在原資料修改

company_data.rename(columns=

, inplace=

true

)# 從大到小排序

company_sorted_data = company_data.sort_values(

'people_count'

, ascending=

false

)# 檢視結果

可以看到成功落戶的人大多在什麼公司,如果你想落戶,可以考慮來到這些公司

# 布林索引

# 只有乙個人落戶的公司

company_sorted_data[company_sorted_data[

'people_count']==

1]# 這種公司的數量

僅一人成功落戶的公司很多,這的確是件難度挺大的事

各分數段的人數分布

連續資料,可以分桶處理

bins = np.arange(90,

130,5)

#生成桶:分段

bins = pd.cut(luohu_data[

'score'

], bins)

# bins:每個資料在哪那個桶裡

# 更改索引的格式

用圖形顯示

bin_counts.plot(kind=

'bar'

, alpha=

1, rot=45)

# 條形圖

年齡維度分析

# 新增乙個字段『age』

進行與上相同的分桶處理

bins_age = np.arange(30,

70,5)

bins_age = pd.cut(luohu_data[

'age'

], bins_age)

bins_age_counts = luohu_data[

'age'

].groupby(bins_age)

.count(

)bins_age_counts.plot(kind =

'bar'

,rot=

0)

看來不到一定年齡,你可以不用考慮這事。

當然,不積跬步無以至千里。有目標,就要不懈的努力。

北京積分落戶資料分析

從公司維度分析不同公司對落戶人數指標的影響 即什麼公司落戶人數最多也更容易落戶 從年齡維度分析不同年齡段對落戶人數指標影響 即什麼年齡段落戶人數最多也更容易落戶 從百家姓維度分析不同姓對落戶人數的指標影響 即什麼姓的落戶人數最多即也更容易落戶 不同分數段的佔比情況 導入庫 import numpy ...

資料分析 資料分析概述

了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...

資料分析 資料分析的誤區

在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...