斯坦福的corenlp,可以用來entities的提取。
關於情感分析
情感分析的詞庫,
sentiment word
wordnet 是近義詞詞典
sentiwordnet 基於wordnet的,現在已經 3.0了
sentiwords 基於sentiwords的
中文的
情感詞典
1.知網的情感詞典
- 由知網發布的詞典,包括中文情感詞典和英文情感詞典
(以下需要論壇積分)
2.台灣大學的情感極性詞典
- 包括2810個正極性詞語和8276個負極性詞語。準確度很高
還有乙個sentimen的提取的乙個庫, pattern
另外nltk也是有工具的。
地理有關的資訊??
知乎上推薦的包,改天試試看,
52npl上面整理的資料。
這個也可以看看哇。
porter stemmer 處理詞語的失態問題 create created之類的??
隱馬爾可夫模型 (hidden markov model,hmm) 的介紹
條件隨機場的一篇介紹
named entity recognizers lingpipe
lingpipe is tool kit for processing text using computational linguistics. lingpipe is used to do tasks like:
find the names of people, organizations or locations in news
automatically classify twitter search results into categories
suggest correct spellings of queries
1.nltk
nltk 在用 python 處理自然語言的工具中處於領先的地位。它提供了 wordnet 這種方便處理詞彙資源的藉口,還有分類、分詞、除莖、標註、語法分析、語義推理等類庫。
** 安裝
安裝 nltk:
sudo pip install -u nltk
安裝 numpy (可選):
sudo pip install -u numpy
安裝測試:
python then type import nltk
體驗過它加的nlp,
2.pattern
pattern 的自然語言處理工具有詞性標註工具(part-of-speech tagger),n元搜尋(n-gram search),情感分析(sentiment analysis),wordnet。支援機器學習的向量空間模型,聚類,向量機。
**:
安裝:
pip install pattern
3.textblob
textblob 是乙個處理文字資料的 python 庫。提供了一些簡單的api解決一些自然語言處理的任務,例如詞性標註、名詞短語抽取、情感分析、分類、翻譯等等。
**:
安裝:
pip install -u textblob
4.gensim
gensim 提供了對大型語料庫的主題建模、檔案索引、相似度檢索的功能。它可以處理大於ram記憶體的資料。作者說它是「實現無干預從純文字語義建模的最強大、最高效、最無障礙的軟體。」
**:安裝:
安裝:linux:
sudo apt-get install pymol
fedora:
yum install pymol
6.spacy
這是乙個商業的開源軟體。結合python和cython,它的自然語言處理能力達到了工業強度。是速度最快,領域內最先進的自然語言處理工具。
**:
安裝:
pip install spacy
7.polyglot
polyglot 支援對海量文字和多語言的處理。它支援對165種語言的分詞,對196中語言的辨識,40種語言的專有名詞識別,16種語言的詞性標註,136種語言的情感分析,137種語言的嵌入,135種語言的形態分析,以及69中語言的翻譯。
**:
安裝 pip install polyglot
8.montylingua
montylingua 是乙個自由的、訓練有素的、端到端的英文處理工具。輸入原始英文文字到 montylingua ,就會得到這段文字的語**釋。適合用來進行資訊檢索和提取,問題處理,回答問題等任務。從英文文字中,它能提取出主動賓元組,形容詞、名詞和動詞短語,人名、地名、事件,日期和時間,等語義資訊。
**:
9.bllip parser
bllip parser(也叫做charniak-johnson parser)是乙個整合了產生成分分析和最大熵排序的統計自然語言工具。包括 命令列 和 python介面 。
10.quepy
quepy是乙個python框架,提供將自然語言轉換成為資料庫查詢語言。可以輕鬆地實現不同型別的自然語言和資料庫查詢語言的轉化。所以,通過quepy,僅僅修改幾行**,就可以實現你自己的自然語言查詢資料庫系統。
**w
還有乙個sentimen的提取的乙個庫, pattern
自然語言處理的一些工具文件介紹
preface 在自然語言處理的道路上,不知不覺地漸行漸遠,查詢資料見過很多任務具,也看過很多文件,依然還是過不好這一生。積累太少了,查詢資料雖多,實際應用上卻很少,記錄下來接觸過的一些nlp的工具。更新中.我愛自然語言處理 我愛機器學習 一 ner 命名實體識別 crfsuite crf ners...
自然語言處理
自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...
自然語言處理
前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...