中文分詞在中文資訊處理中是最最基礎的,無論機器翻譯亦或資訊檢索還是其他相關應用,如果涉及中文,都離不開中文分詞,因此中文分詞具有極高的地位。
nlp剛入門,想找個東西練練手,於是便看到了手邊的農藥。。。
思路
結果
71位英雄的英雄故事文字
共計59793個字元
排名前20的高頻詞彙:
【自己】一詞出現了194次,詞頻為0.48%,高居榜首。
王者榮耀團隊在介紹英雄時,多以第一人稱視角進行故事敘述和情感宣洩。
有利於使用者更好地理解英雄背景,觸發共情效果,有利於提高使用者的整體遊戲體驗。
如蘇烈的英雄故事中,【自己】就出現了4次,所截區域不全,僅作展示說明。
男女詞彙比例
男性詞彙: 他 他們 男 男子 男人 少年 爹爹;出現次數704次,詞頻為1.74%。
女性詞彙: 她 她們 少女 女 妻子 太后 女媧 小女孩 女郎 女孩 女嬰 女戰士;出現次數263次,詞頻為0.65%。
男女詞彙比例為73:27,男女英雄數量比例為72:28,幾乎一致王者榮耀的英雄更迭與故事發展主要與男性英雄相關
如鎧的英雄背景中,【他】出現了31次,【她】出現了1次
在同為長城小隊隊員的花木蘭英雄背景中,【他】出現了12次,而【她】出現了1次
主要情節均由男性角色推動。
排名前20的地點詞彙:
【長安】、【長城】和【大唐】穩居榜首前三,佔據了前20地名中46.67%的詞頻
繁華盛世和戰亂邊疆都是孕育無數英雄豪傑的好地方,相容幷蓄的社會環境和攘外安內的國家政策迸發出一批又一批的青年才俊。
王者榮耀的遊戲策劃也是深諳此道。
目前所有的英雄均來自於王者大陸的魔幻土地之上,如城鎮、廢墟、地下、森林、深淵、寺院和戈壁等。
官方人員在設計新的英雄時,不妨把視角轉向浩渺的天空。
如dota中的雙頭龍、精靈龍、寒冰飛龍、死靈飛龍和鳳凰等角色,來為遊戲注入新的活力,進一步加強遊戲本身的趣味性和可玩性。
正負面情感詞彙比例
正負面詞彙比例為65:35,英雄們多因外族入侵、魔道猖獗、國破家亡和希望破滅等因素,為了國家安定和夢想實現,不得不拿起手中刀劍,奔向戰場
天降大任於斯人也,必先苦其心志,勞其筋骨,餓其體膚,空乏其身,行指亂其所為,所以動心忍性,曾益其所不能。
正面詞彙: 愛 仁 和平 信任 勝利 希望 微笑 榮耀 偉大 輝煌 美麗 自信 等;出現次數425次,詞頻為1.04%。
負面詞彙: 魔 魔道 黑暗 憤怒 背叛 可怕 恐懼 失去 死亡 危險 吞噬 ** 殘忍 嘲笑 折磨 戰亂 等;出現次數780次,詞頻為1.91%。
原文發布時間為:
2017-10-16
pt2017
專案02 王者榮耀英雄搜尋資料結構
1,目標 1,從 獲取英雄描述檔案herolist.json 2,假定英雄型別標識如下 hero type 全部 戰士 法師 坦克 刺客 射手 輔助 3,從獲取英雄網頁列表,並且提出英雄名稱及頭像鏈結 4,從網頁提取英雄名稱和頭像鏈結資訊 5,合併兩個資訊並構建英雄詳細資訊資料列表,例如 嫦娥 法師...
資料分析告訴你,復聯哪個英雄人氣最高
復仇者聯盟系列自上映以來,票房一直是節節高 其中復聯3的累積票房更是擠進中國電影票房總榜的第11位。資料來自 貓眼電影 復聯絡列被人津津樂道的,永遠是裡邊性格和能力各異的超級英雄,正因為如此,復聯才能討好幾乎所有觀眾,因為每個觀眾都能找到自己喜歡的英雄。那麼復聯裡邊誰是人氣最高的英雄呢?由以上資料得...
資料分析告訴你,復聯哪個英雄人氣最高
歡迎關注天善智慧型,我們是專注於商業智慧型bi,人工智慧ai,大資料分析與挖掘領域的垂直社群,學習,問答 求職一站式搞定!復仇者聯盟系列自上映以來,票房一直是節節高 其中復聯3的累積票房更是擠進中國電影票房總榜的第11位。資料來自 貓眼電影 復聯絡列被人津津樂道的,永遠是裡邊性格和能力各異的超級英雄...