用姓名識別性別對超級飛俠中的人物性別進行統計

2021-09-11 07:09:10 字數 1458 閱讀 8404

有一天傍晚,在陪孩子看完一集又一集的動畫片《超級飛俠》的時候,我發現每集的主人公性別不是有規律的,然後就無聊的想統計一下男性和女性的性別,就是想知道《超級飛俠》有沒有間接暗示小孩子時候那個性別更愛訂包裹(我是有多無聊)。那說幹就幹吧。

我的菜鳥思路

加一行**,凡是得到的人名中有上面那些名字都不要(估計漏了個別飛機名字)。再優化一下**去除相同名稱的。

優化結果如下:

發現結果每集中存在多個名字,再看一下資料集分析發現。文字劇情**現的第乙個姓名是我們所要的姓名,所以我們只訪問第乙個姓名。然後再做一下姓名性別分類器,拿一下第一季第一集的「阿佳斯」做測試,得到結果是男性。然後檢視一下文字劇情確認一下,看樣子是個男生呀!

最後初略得到了三季78集中的59個人物姓名,然後分類得到34個男性和25個女性。分類器正確率是80%左右,我大概得到:在小時候,男孩子比女孩子更愛購物(剁--手)。

真實的結果真的是這樣嗎??我想說不一定,因為這裡面存在不少對資料集錯誤的清洗操作。例如:

如果你曾經認真陪過孩子看《超級飛俠》,你應該知道有的時候訂購的包裹不一定是孩子訂購的,而是孩子的父母。所以對於這些噪點資料,我們不能乙個乙個處理,不然那樣就失去了資料探勘的意義了。

儘管很少但還是有個別劇情是連集的,這種情況我們有可能多統計重複乙個人名。

所以我們在做資料探勘過程中,絕大部分時間都不是花在挑選合適演算法和訓練分類器(調參**),而是用在了資料清洗上,資料清洗的效果也是能夠一定程度上影響分類器的正確率的。

是美國首部的名稱。所以現在的nlp技術真的很難達到我們人腦識別的正確率,但它高效率及低錯誤率我們還是願意接受的。

如何識別效能測試瓶頸?

碰到過的效能問題 在高併發的情況下,產生的處理失敗 比如 資料庫連線池過低,伺服器連線數超過上限,資料庫鎖控制考慮不足等 記憶體洩露 比如 在長時間執行下,記憶體沒有正常釋放,發生宕機等 cpu使用偏離 比如 高併發導致cpu使用率過高 日誌列印過多,伺服器無硬碟空間 如何定位這些效能問題 檢視系統...

市場熱門護照識別效能測評對比

留學資訊登記?旅遊產品預訂?跨國電信業務辦理?隨著經濟的高速發展,對外業務日益繁榮,護照的使用場景和使用頻率也在持續擴張和攀公升。然而,傳統的手動登記易出錯效率低,已經無法滿足高節奏高效率的工作要求。ocr技術的出現大大緩解登記壓力。市面上的護照識別技術不少,各有側重,哪乙個才適合自己呢?下面我們選...

人臉實時情緒與性別識別

最近弄乙個情緒識別與性別識別的東東。opencv keras opencv用於人臉檢測 keras用於訓練出識別模型 資料集用於kaggle的 fer2013 cnn進行訓練。如下 import cv2 import sys import json import time import numpy ...