文字預處理

2021-10-02 19:37:38 字數 924 閱讀 1257

常見預處理步驟,預處理通常包括四個步驟:

讀入文字

分詞建立字典,將每個詞對映到乙個唯一的索引(index)

將文字從詞的序列轉換為索引的序列,方便輸入模型

現有的工具可以很好地進行分詞,我們在這裡簡單介紹其中的兩個:spacy和nltk。

text =

"mr. chen doesn't agree with my suggestion."

spacy:

import spacy

nlp = spacy.load(

'en_core_web_sm'

)doc = nlp(text)

print

([token.text for token in doc])[

'mr.'

,'chen'

,'does'

,"n't"

,'agree'

,'with'

,'my'

,'suggestion'

,'.'

]

nltk:

from nltk.tokenize import word_tokenize

from nltk import data

'/home/kesci/input/nltk_data3784/nltk_data'

)print

(word_tokenize(text))[

'mr.'

,'chen'

,'does'

,"n't"

,'agree'

,'with'

,'my'

,'suggestion'

,'.'

]

文字預處理

本文章內容主要學習文字預處理的基本步驟及實現。1 讀入文字 2 分詞 3 建立詞典,將每乙個詞對映到乙個唯一的索引 4 將文字從詞的序列轉換為索引的序列,方便輸入模型 此處用一部英文 即h.g.well的time machine,作為示例,展示文字預處理的具體過程。def read time mac...

線性回歸 文字預處理

線性回歸 1.模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age bprice warea area wage age b...

文字語料預處理總結

import jieba import re eve list 測試 現power type check 依據bom和裝配圖,bom中沒有不用處理 記憶體問題反饋攻關組跟蹤 print list map lambda x re.sub s d a za z x eve list import jie...