詞袋模型記錄了單詞在詞彙表中出現的次數。
def
loaddataset
():#建立文件集合以及標籤
postinglist = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'i', 'love', 'him'],
['stop', 'posting', 'stupid', 'wprthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #進行詞條切分後的文件集合
classvec = [0, 1, 0, 1, 0, 1] #1表示侮辱性文字,0表示正常言論
return postinglist, classvec
defcreatevocablist
(dataset):
#建立詞彙表
vocabset = set() #建立乙個空子集
for document in dataset:
vocabset = vocabset | set(document) #set子集並運算,建立乙個不重複詞列表
return list(vocabset)
#詞袋模型
defbagofwords2vecmn
(vocablist, inputset):
#vocablist詞彙表,inputset輸入文件
returnvec = [0]*len(vocablist) #建立乙個與vocablist等長的0向量
for word in inputset:
if word in vocablist:
returnvec[vocablist.index(word)] += 1
#相應的位置置1,計算出現的次數
return returnvec
詞袋模型(bag of words,BOW
詞袋模型是自然語言處理中在建模文字時常用的文字表示方法。維基百科上的給出如下的例子 john likes to watch movies.mary likes too.john also likes to watch football games.將上面的兩句話中看作乙個文件集,列出文件 現的所有單...
文字向量化 詞袋模型 TF IDF
對文字資料進行建模,有兩個問題需要解決 模型進行的是數 算,因此需要數值型別的資料,而文字不是數值型別資料。模型需要結構化資料,而文字是非結構化資料。將文字轉換為數值特徵向量的過程,稱為文字向量化。將文字向量化,可以分為如下步驟 對文字分詞,拆分成更容易處理的單詞。將單詞轉換為數值型別,即使用合適的...
DBOW詞袋訓練工具
啟動指令碼 說明 安裝安裝visual map,見 catkin build vslam 使用執行檔案 devel lib bag tool bag tool exe 引數1 輸出的模型的檔名,比如freaktest.bin 引數2 描述型別,freak 或者 orb 引數4 模型的分支數 引數5 ...