因為實習的緣故,所以有機會接觸到了自然語言處理的一些方面。
這裡主要總結一下在python環境下進行自然語言處理的相關包和可能會出現的相關錯誤,目前接觸的都比較
low,
但是還是想要記錄下來。
nltk是
python
下處理語言的主要工具包,可以實現去除停用詞、詞性標註以及分詞和分句等。
安裝nltk,我寫
python
一般使用的是整合環境
epdpip install nltk
安裝。
》pip install nltk #安裝
nltk
》nltk.download() #彈出乙個選擇框,可以按照自己需要的語義或者是功能進行安裝
一般要實現分詞,分句,以及詞性標註和去除停用詞的功能時,需要安裝stopwords,punkt以及
當出現lookuperror時一般就是由於缺少相關模組所導致的
就是沒有安裝stopwords所導致的,可以手動安裝,也可以
》nltk.download(『stopwords』)
如果出現
則是需要安裝punkt,這個模組主要負責的是分詞功能。同
stopwords
一樣有兩種方式安裝。
同理當報出
lookuperror
resource ***/maxent_treebank_pos_tagger/
去除停用詞,分詞以及詞性標註的呼叫方法
from nltk.corpus import stopwords
import nltk
disease_list = nltk.word_tokenize(text)
#去除停用詞
filtered = [w for w in disease_list if(w not in stopwords.words('english')]
#進行詞性分析,去掉動詞、助詞等
rfiltered =nltk.pos_tag(filtered)
rfiltered以列表的形式進行返回,列表元素以(詞,詞性)元組的形式存在
中文分詞與停用詞的作用
首先什麼是中文分詞stop word?英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合...
貝葉斯分類 分詞例項 停用詞
import pandas as pd data origin pd.read csv data.csv encoding gbk 開啟停用詞檔案 with open stopwords.txt r encoding utf 8 as fp stop words fp.readlines 返回列表 ...
02 NLTK 分句 分詞 詞幹提取 詞型還原
nltk 分句 分詞 詞幹提取 詞型還原 print 案例1 分句 分詞 import nltk.tokenize as tk doc are you curious about tokenization?let s see how it works we need to analyze a cou...