據**報道,中國目前的單身成年女性的數量已經超過乙個多億,也就是說14.3%的成年女性處於單身狀態,與日本全國人口總數基本相當。
知己知彼,百戰不殆。如果你是乙個單身女性,你可以看到自己的某些影子;如果是單身男生,你需要了解目標人群的特點;如果是已婚男士,要相信「天下鳳凰一般美!!!」
說 明
2、該**上的女生預設為單身;
3、該**上的個人資訊預設為真實;
4、爬取的樣本資料具有充分的代表性。
5.很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入了解,想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及高階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系。
一、基本概況
爬取該**18~37歲之間的女生個人主頁資訊,總體數量在5000左右,地域範圍涵蓋三十多個省(自治區、直轄市)。資料質量方面:身高、體重和工作等部分資訊預設。
二、人群年齡與星座分布
從年齡直方圖看,基本滿足正態分佈,在24歲和32歲左右存在兩個較大的波峰。18~23歲正處於大學教育階段,校園戀情比較多,因此該年齡階段在**註冊人數較少;26歲處於兩個波峰之間,是剩下比較少的年紀,說明這個年齡階段的比較搶手。
從星座分布來看,風相星座中的雙子座(11.47%)和天秤座(10.58%)的優異成績勇奪前兩名,有意思的是,同屬風相星座的水瓶座以5.51%墊底。按照一般的理解,風相星座想象力豐富,擅長社交,語言表達能力強,但性格變化多端,有喜新厭舊和情緒化的毛病,這也許是呈現兩極分化的原因吧。而自帶招黑體質的**座(8.78%)表現相對中庸。
三、外貌協會特點
從身高分布直方圖上看,身高的眾數為165cm,主要分布區間為160~170。
從體重分布直方圖上看,體重集中於48~53kg之間,基本滿足正態分佈規律。
四、個性和愛好
從愛好上看,「旅遊」、「逛街」、「聚會交友」愛好榜前三名。這也很好理解,主要的愛好其實是買買買,可以逛街買,也可以旅遊買,買了之後可以聚會交友,而後帶上朋友一起買。。。
五、受教育情況
受教育程度上看,本科佔據了絕大多數,這和人群的分布規律基本一致。
六、工作和收入
職業分布情況見下圖:
七、全國分布情況
可以看出,經濟發達的上海、北京等大城市的數量比較多,與黑河騰衝線人口分布規律一致。
八、資料相關性
選取年齡、身高、星座、省份、學歷、收入、職業等7個維度的刻畫資料,分別計算pearson、spearman和kendall相關係數。
結論基本一致:收入和職業的相關性較強(pearson相關係數=0.46),其次是收入和年齡、學歷的相關性。乙個有趣的發現是身高和學歷竟然存在微弱的相關性,pearson相關係數為0.26;而星座與其他各項的相關性最弱,所以經常說的xx星座擅長考試的說法應該是沒有依據的吧。
九、小結
單身女生分析報告基本完成。從統計結論上看,與人群分布規律基本一致,也與外界的認知基本統一。不過也有幾點有意思的發現:比如年齡分布的雙峰特點、風相星座的兩極分化、「旅遊逛街交友」的三大愛好以及身高和學歷間的微弱相關性。
資料裡蘊含著豐富的寶藏,只要挖掘,總會有所發現。
女生學大資料可以做哪些工作
很多人的印象是it是高階技術工作,搞it的都是男生,大資料開發是it的一種,肯定都是男生做的工作,其實不然,大資料開發女生也是可以做的,而且還很吃香,相比於男性大資料開發人員,女大資料開發工程師具有以下優勢 1.與男性相比,女性在溝通上更有優勢 眾所周知,做大資料開發就是為了服務於客戶,雖然說做出專...
小白學習大資料測試之揭秘大資料的背景與發展
大資料是個神馬鬼 根據麥肯錫全球研究所給出的定義是 一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。簡單點說就是指無法在一定時間範圍內用傳統的計算機技術進行處理的海量資料集。大資料市場前景...
小白學習大資料測試之揭秘大資料的背景與發展
大資料是個神馬鬼 根據麥肯錫全球研究所給出的定義是 一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。簡單點說就是指無法在一定時間範圍內用傳統的計算機技術進行處理的海量資料集。大資料市場前景...