特別推薦:
1、hmm學習最佳範例全文文件
2、無約束最優化全文文件
一、書籍:
1、《自然語言處理綜論》英文版第二版
2、《統計自然語言處理基礎》英文版
3、《用python進行自然語言處理》,nltk配套書
4、《learning python第三版》,python入門經典書籍,詳細而不厭其煩
5、《自然語言處理中的模式識別》
6、《em演算法及其擴充套件》
7、《統計學習基礎》
三、語言資源和開源工具:
1、brown語料庫:
a) xml格式的brown語料庫,帶詞性標註;
b) 普通文字格式的brown語料庫,帶詞性標註;
c) 合併並去除空行、行首空格,用於詞性標註訓練:browntest.zip
2、nltk官方提供的語料庫資源列表
3、opennlp上的開源自然語言處理工具列表
4、史丹福大學自然語言處理組維護的「統計自然語言處理及基於語料庫的計算語言學資源列表」
5、ldc上免費的中文資訊處理資源
另外finalllyliuyu在2023年9月又提供了一批文本文類語料,詳情見:獻給熱衷於自然語言處理的業餘愛好者的中文新聞分類語料庫之二
四、文獻:
1、acl-ijcnlp 2009**全集:
a) 大會**full *****第一卷
b) 大會**full *****第二卷
c) 大會**short *****合集
d) acl09之emnlp-2009合集
e) acl09 所有workshop**合集
NLP自然語言處理相關
近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...
統計自然語言處理書籍閱讀心得四
1 困惑度 我們通常用困惑度 perplexity 來代替交叉熵 衡量語言模型的好壞。同樣,語言模型設計的任務就是尋找困惑度最小的模型,使其最接 近真實語言的情況。在自然語言處理中,我們所說的語言模型的困惑度 通常是指語言模型對於測試資料的困惑度。一般情況下將所有資料分成 兩部分,一部分作為訓練資料...
統計自然語言處理書籍閱讀心得六
自動機理論 1 有限自動機,有限自動機又分為確定性有限自動機 definite automata,dfa 和不確定性有限自動機 non definite automata,nfa 兩種。其中,是輸入符號的有窮集合 q是狀態的有限集合 q0 q是初始狀態 f是終止狀態集合,f q 是q與 的直積 就是...