自然語言處理 英文文字 python

2021-10-08 21:08:56 字數 743 閱讀 5308

關於自然語言處理的資料已經非常多,對於英文文字的處理步驟和方式在這裡給大家整理一下:

一般來說英文文字處理有幾以下幾個步驟:

(1)分詞操作:

分詞應該是所有自然語言處理首先都需要做的,那麼分詞有以下幾種方法供給大家參考

1.textblob包中提供的分詞操作用法:text.word,其中text為文字名稱

2.nltk包中的分詞方法:word_tokenize(text)

3.split方法做分詞:因為英文單詞本來就有空格,所以直接使用空格作為詞語之間的間隔判斷:text.split()

(2)小寫轉化:

word.lower()

(4)詞性標註操作:

這裡可以使用兩種方法:

1.nltk包自帶的詞性標註:nltk.pos_tag(text)

2.spacy包帶的詞性標註

(5)詞性還原:

1.nltk包

2.spacy包

(6)檢查文字中的詞頻:

1.在分詞之後使用collection包帶的counter函式 word_counts = collections.counter(words)

2.在分詞之後使用nltk包帶的工具:freqdist(words)

(7)textblob包

英文自然語言預處理

目錄 1 資料集準備 2 資料集處理 1 簡單分詞 詞性還原 停用詞過濾 2 特徵提取 tt idf 資訊增益 卡方檢驗 互資訊 n gram等 3 文字標籤向量化 4 選擇合適的演算法模型進行訓練 函式說明 簡單分詞 parameters filename 資料檔案 returns list wo...

自然語言處理的中文文字相似度

前言 人與計算機的互動過程中,如果能提供人類的自然語言形式來進行交流,那麼人與計算機就能更加親密友好。而要實現這一機制就需要自然語言處理來處理,一般來說自然語言處理會涉及幾個學科 電腦科學 語言學 統計學和數學等。不同語言的自然語言處理也存在差別,對於中文來說,很多時候都無法直接套用英語自然語言處理...

自然語言處理 文字的表示

在分詞之後,如果想要做一些有意思的事情 比如文字分類和句子相似度分析等 就需要文字的表示。文字的表示就是通過向量來表示單詞 句子以及文章。首先來看下單詞的表示,有很多種方法。今天我們先來介紹乙個最簡單的方法。單詞的表示首先需要有乙個詞典,這裡假設我們的詞典是這樣的 word dic 我們 去 爬山 ...