常見預處理步驟,預處理通常包括四個步驟:
讀入文字
分詞建立字典,將每個詞對映到乙個唯一的索引(index)
將文字從詞的序列轉換為索引的序列,方便輸入模型
現有的工具可以很好地進行分詞,我們在這裡簡單介紹其中的兩個:spacy和nltk。
text =
"mr. chen doesn't agree with my suggestion."
spacy:
import spacy
nlp = spacy.load(
'en_core_web_sm'
)doc = nlp(text)
print
([token.text for token in doc])[
'mr.'
,'chen'
,'does'
,"n't"
,'agree'
,'with'
,'my'
,'suggestion'
,'.'
]
nltk:
from nltk.tokenize import word_tokenize
from nltk import data
'/home/kesci/input/nltk_data3784/nltk_data'
)print
(word_tokenize(text))[
'mr.'
,'chen'
,'does'
,"n't"
,'agree'
,'with'
,'my'
,'suggestion'
,'.'
]
文字預處理
本文章內容主要學習文字預處理的基本步驟及實現。1 讀入文字 2 分詞 3 建立詞典,將每乙個詞對映到乙個唯一的索引 4 將文字從詞的序列轉換為索引的序列,方便輸入模型 此處用一部英文 即h.g.well的time machine,作為示例,展示文字預處理的具體過程。def read time mac...
線性回歸 文字預處理
線性回歸 1.模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age bprice warea area wage age b...
文字語料預處理總結
import jieba import re eve list 測試 現power type check 依據bom和裝配圖,bom中沒有不用處理 記憶體問題反饋攻關組跟蹤 print list map lambda x re.sub s d a za z x eve list import jie...