最近很多關於曬擇偶標準的帖子,活脫脫把知乎變成了另乙個「世紀佳緣」,回答清一色的爆照和曬條件,這對於單身狗來說是妥妥的福利。
母胎solo的程式設計師小q就沉迷其中不能自拔,這是他第100次感慨「你說說!這些小姐姐是真好看!但回答實在太太太多了,怎麼才能在這些回答中找到合適的人選呢?z哥,你能不能從資料分析角度給我點思路啊?」
小z不勝其擾,被迫接受了這個艱難的任務——基於資料打造乙份擇偶指南。
說是問擇偶的標準,其實全是希望找到另一半的小哥哥、小姐姐們在答題。目前已經有27000+回答了:
回答爬取這一塊,知乎還是比較友善的,只需要在xhr裡面找到回答的動態**,偽裝headers的user-agent就能夠歡樂的批量爬取了。
小z不費吹灰之力就爬到了問題下27664條回答,還包括每條回答的答主暱稱、關注人數、點讚數、性別等一大票欄位。
1、匿名情況和性別佔比
截至日前,這個回答下有13527個使用者是匿名的,佔比(48.90%)接近半數。需要注意的是,所有匿名使用者的性別預設都是男(知乎性別1表示男,0表示女,-1代表未知)。出於職業習慣,小z以迅雷不及掩耳之勢分析了男女佔比(剔除了匿名使用者的佔比):
小z發現,這個問題下,已經有大神基於內容進行了匹配,在未剔除匿名的情況下,發現男性佔比較大。
而我們剔除掉匿名的使用者,只基於爬取的性別源資料進行分析,發現男、女、未知三分天下,性別佔比相對均衡,可以確定的是,目前回答下有4758個不匿名的小姐姐。(這兩套邏輯下的統計結果並不衝突)
2、回答建立時間分布
在看回答建立時間分布前,需要先把知乎預設的時間戳格式轉換成我們習慣的時間格式:
回答時間分布:
「哥們,你看看吧」一番標準匯報式的操作完成之後,小z有些嘚瑟。
「emmm,這都哪兒跟哪兒啊!你別給我看這些有的沒的行嗎!什麼男女佔比,什麼發布時間分布,都關我屁事啊,我需要的是切實的!可以幫助我在上面找到女朋友的資料建議!」
納尼?這跟我預想的他會猛誇我一頓的結果完全不一樣啊!不過他說的確實在理。小z頓時沒了底氣。「那行,資料都拿到了,你說說你找女朋友什麼條件吧」
小q45度角仰望天空,露出了少男懷春般的甜笑「什麼條件不條件的,我只想找到乙個我願意為她放棄所有預設條件的靈魂伴侶。」
噗!「這才是他單身的根本原因啊!這個人可能被需求壓成傻子了,要包容,要包容,要包容」小z吐完一口老血後不斷安慰自己。
小q繼續補充道:「這樣吧,你能幫我列乙個清單嗎?我覺得可能還是要自己聊聊,看合不合拍。哦對了,匿名的就算了,我不喜歡太害羞的」。
得!匿名算了是吧,那我直接篩掉!靈魂伴侶是吧,那肯定接受異地,地區匹配先省略了!能放棄所有預設條件是吧,那學歷年齡身高哥也不用給你去正文苦哈哈的匹配了!
問題的重點,就在於如何設計一套合適的邏輯來從資料中清洗和篩選出目標小姐姐們。
沉思片刻,小z制定了乙個四步脫單法來解決這個問題:
1、既然是靈魂伴侶,那如果回答連30字都沒有超過,不是抖機靈就是敷衍,怎麼能承擔起「靈魂」二字呢!必須pass掉!
搞定,這一步下來,目標群體還有4244個小姐姐
2、資料最重要的特性之一就是時效性,別看回答數量這麼多,真正抓得住的幸福才是屬於自己的幸福,如果乙個答主最近一次更新答案的時間超過了乙個月,那只有兩種可能,要麼是她已經找到了,要麼她已經對這個方式失去了興趣。所以,加上時間條件,篩選出最近30天還活躍的小姐姐們。
經過本輪篩選,小姐姐的數量直接從4244個縮小到598個。
3、小z發現,有一些小姐姐在回答中強調**or內容已刪,已經找到。這類回答當然要繼續pass。
還剩下562位~
4、對於相貌平平無奇,條件一般的小q來說,去追已經被眾星捧月的小姐姐們,難度實在是太大了。於是小z根據經驗暴力設定了兩個閾值:
四步走下來,名單已經成功銳減到480了,剩下的都是些走心的(回答字數多)、熱乎的(最近更新)、正在擇偶中且競爭還不算激烈的小姐姐們。小z長舒一口氣後,又有了新的困惑:「這樣篩選得到的名單,雖然說範圍精確多了,能不能再進一步,給他乙個優先順序排序呢?
問題的核心要給他找乙份相對不錯,又競爭尚小的名單。而相對不錯,又競爭壓力尚小,怎麼量化呢?將髮際線撓退了2厘公尺後,小z有所頓悟。
舉個栗子:
從讚評指數來看,a的4.33 > b的2.17;c的2.24 > d的1.70,看來,評讚指數能夠為我們的選擇提供優先順序指導。
於是,小z用暴力的讚評指數對剩下的小姐姐進行排序,並取top30,得到了最終的脫單大名單。
程式設計師健康指南
程式設計師常見的健康問題與相應的解決方法 身體 腦子 長時間壓力用腦 解決 1 釋放壓力,放鬆自己,調整心態 2 按時按壓太陽穴,敲鼓 3 每天乙個雞蛋,核桃,維c水果 4 早睡早起 眼睛 長時間看電腦導致酸,乾澀,疲憊 解決 1 按時眼保健操,眺望遠方 2 放綠色植物 3 調整螢幕亮度,色度,貼保...
程式設計師健身指南
日常好的蛋白質 主要是那些脂肪含量少 蛋白質含量多的動物蛋白。比如豬牛里脊 後腿肉 去皮禽類等瘦肉,魚蝦貝,雞蛋 蛋白質更能讓人產生飽腹感。主食方面減少精公尺麵的攝入,增加粗糧,提高粗纖維攝入量 平時吃 低gi碳水為主,避免血糖大幅波動,抗餓,防止暴飲暴食 運動後 高gi碳水為主,促進胰島素分泌,幫...
程式設計師相親指南
發現網上有不少同名文章,不過還好,我和他們說的不是一回事。php程式設計師,經常自嘲是拍黃片的,因為漢語拼音縮寫一致,問題是,你圈子內開開玩笑就算了,面對並不熟悉的姑娘,開這麼冷門的玩笑,實在是非常低情商的行為,不要說絕大部分女孩不了解這個梗,就算人家知道這個梗的背景,我覺得拉黑他也一點不冤枉。舊文...