微博資料集,新詞發現,傾向性判
現在看過去,就是這樣乙個問題:
給你乙個微博語料集(其實就是兩個 excel檔案,或者是.txt檔案)就是檔案
1:開啟,讀入檔案:你使用什麼程式語言,就呼叫相應函式開啟,讀入檔案即可。
2:觀察資料:用emeditor 開啟.csv檔案,看到 所給的資料集有多少行,多少列。。。好好觀察資料(ps:.csv檔案有個特點,資料庫中的每條記錄,記錄在單獨一行。這個特性
很好啊,方便進行資料處理。如;在**中一行行的讀入檔案,等價於,一行行的讀入記錄資料。很棒)
3:進行預處理。(這個,我copy網上大神的一段**):所謂預處理,就是利用正規表示式,過濾掉資料集中無用的東西(即,如:無用的列)。
4:分詞:選擇乙個 分詞器,讀入檔案,進行分詞,並把分詞結果輸出到另乙個檔案中(**:掉cut函式,檔案的讀入,與寫出操作)
5:新詞發現:新詞發現的簡單思路:在python 中,建立乙個字典 dict{},把dict.txt讀入字典中。 建立乙個測試文字test.txt ,進行分詞,把分詞的每乙個詞到 dict{} 中查詢,
若找到,pass;若沒找到,即為新詞,加入字典 new_word{}
6:傾向性判別:看了好多**,設計到 訓練分類器,暫時不會。所以,用純**,實現乙個簡單的,粗糙的不能再粗糙的思路->
把每一行不是新詞的情感詞按行儲存起來,並記錄其極性;然後,這一行所出現的 新詞的極性,就是 改行所有不是新詞的情感詞的極性的累加和
(**:設定了4個python 字典,並且使用到了 字典巢狀。)
目前為止,效果不好。
GeekOS課程設計 project1
熟悉elf檔案格式,了解geekos系統如何將elf格式的可執行程式裝入到記憶體,建立核心程序並執行的實現技術。1 修改 geekos elf.c檔案 在函式parse elf executable 中新增 分析elf格式的可執行檔案 包括分析得出elf檔案頭 程式頭,獲取可執行檔案長度,段 資料段...
python unittest基本思路
unittest是python中的單元測試框架,但也可以作為selenium自動化測試框架。基本思路主要分為以下三步 1.設計測試用例,注意點主要是要包含測試類和測試方法 class unittest class unittest.testcase 必須包含unittest模組下的testcase類...
快速排序基本思路
尊重原創,原文鏈結 今天看到大神寫的一篇快速排序的部落格,肅然起敬,覺得原來快速排序這麼簡單 下面進行簡單的試試 快速排序的基本思想是 1 先從數列中取出乙個數作為基準數 2 分割槽過程,將比這個數大的數全放到它的右邊,小於或等於它的數全放到它的左邊 3 再對左右區間重複第二步,直到各區間只有乙個數...