最近看了一些關於自然語言處理方面的書,對其很感興趣,在昨天晚上搞到了深夜,總算功夫不負有心人,現在基礎環境已經搭建完成,閒言少敘,現將搭建的具體過程和遇到的問題分享給大家。
基礎環境:windows 7 32位作業系統 1.
安裝python(我安裝的是python2.7,目錄c:\python27)。,
(推薦用這個)。 2.
新增環境變數。在命令列模式下輸入:
set path=%path%;c:\python2
7這種方法最容易,當然也可以在計算機-->屬性-->高階系統設定-->環境變數,新增系統變數,變數名為path,對應的屬性值為
c:\python27
即可。
3.在命令列模式下執行
python,出現如下圖所示,即說明python已安裝成功。
4.安裝nltk
nltk-
3.0.0
把nltk-
3.0.0
解壓到c:\python27目錄,
開啟cmd
,進到c:\python27\nltk-2.0.3
目錄(輸入:
cd c:\python27\nltk-
3.0.0)
輸入命令:python setup.py install
5.這個時候,會報錯,因為缺少setuptools
setuptools
,安裝後再執行
python setup.py install
命令即可。 6.
安裝pyyaml
檔案(程式會自動搜尋
python27
目錄)7.
在所有程式中找到python2.7
資料夾,
開啟idle
,輸入import nltk
,沒有錯誤的話,就說明安裝成功了。到這裡,
nlp所需的基本
python
模組都已經安裝好了,然後要安裝
nltk_data
nltk_data
有好幾種方法,這裡我只介紹兩種
。第一種:輸入
import nltk,然後輸入
nltk.download()
,這樣就可以開啟乙個
nltk **********
(nltk
,,我設定的是
c:\nltk_data
。(這種方法很慢,並且安裝了幾次都不能全部安裝)第二種:上
,提取碼為
504e
c:\nltk_data
目錄下。因為是壓縮包,選擇c:\nltk_data\corpora
目錄下的所有壓縮檔案,選擇解壓到當前資料夾。(之後再用到其他的檔案,再進行類似的解壓即可)
8.在計算機-屬性-
高階系統設定-高階
-環境變數
-系統變數
-新建:變數名:nltk_data
,屬性值:c:\nltk_data。這一步與上面第二步的操作基本相同。
9.在idle下輸入:form nltk.book
import
*會出現下圖所示:
10.測試環境搭建的效果:接著第九步的操作,輸入:text2.concordance('is');
結果如下所示:
說明:text
2為nltk資料報中的一段資料來源,是一大串字串。這句話實現的是從這一大串字串中找尋出包含
is這個單詞的語句。
自然語言處理
自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...
自然語言處理
前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...
自然語言處理
一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...