分詞
過濾停用詞
tf-idf得到摘要資訊或者使用lda主題模型
與其他的鐵達尼號遇難**等案例不同, 文字處理需要自己在預處理時構建出資料表. 沒有後者每乙個提供表
不使用第三方庫實現的思路
過濾停用詞得到去掉停用詞的集合data
對data進行去重(現在使用的演算法不需要單詞出現的數量, 如果換作其他演算法則不一定), 獲取data中所有的單詞words, words的形式為list
data0的每乙個list元素的單詞轉為0和1, 返回一組向量, 0表示沒有該單詞, 1表示有該單詞
def nbtrain函式使用貝葉斯進行訓練
根據根據貝葉斯公式, 根據輸入的測試集向量, 通過貝葉斯公式與nbtrain出來的引數(該引數與貝葉斯公式非常相關)得出p0與p1, 比較大小進行分類藉口
使用sklearn的native_bayes模組實現
現在得到了我們需要用於建模的資料表了(前面就是特徵提取的操作, 是機器學習中最難的部分, 目的就是為了得到可以用於建模的資料表)
將資料分成訓練集和測試集
匯入native_bayes模組中的multinomialnb類物件
評估
Python文字資料分析與處理
分詞 過濾停用詞 tf idf得到摘要資訊或者使用lda主題模型 與其他的鐵達尼號遇難 等案例不同,文字處理需要自己在預處理時構建出資料表.沒有後者每乙個提供表 不使用第三方庫實現的思路 過濾停用詞得到去掉停用詞的集合data 對data進行去重 現在使用的演算法不需要單詞出現的數量,如果換作其他演...
python處理文字資料
處理文字資料,主要是通過seris的str訪問。遇到nan時不做任何處理,保留結果為nan,遇到數字全部處理為nan。str是seris的方法,dataframe不能直接使用,但是通過索引選擇dataframe中的某一行或者某一列,結果為seris,然後就可以使用了。例如定義乙個seris和data...
Python資料分析與處理 一
目錄 前言 為了幫助廣大考生和家長了解高考歷年的錄取情況,很多 都彙總了各省市的錄取控制分數線,為廣大考生填報志願提供參考。因受多種因素影響,每年的分數線或多或少會有一些變動。採集北程式設計客棧京2006 2019年的資訊。使用python的pandas庫完成以下資料分析。包含三部分內容 從 爬取,...