mit 的 natural language processing
stanford 的cs224n natural language processing
stanford 的 cs224d: deep learning for natural language processing :講述深度學習在自然語言處理方面比較成功的應用。
入門首選:吳軍博士的《數學之美》:深入淺出的講述了數學在計算機領域的應用,體現了數學的簡單美,書中主要涉及了自然語言處理的一些內容。
宗成慶的《統計自然語言處理》:全面介紹了統計自然語言處理的基本概念、理論方法和最新研究進展。尤其是講述了中文的自然語言處理。
《統計自然語言處理基礎》:統計自然語言處理的一本著作。
《python自然語言處理》:主要講nltk這個包的使用。
nltk:python的自然語言處理包
自然語言處理入門
1 首先,將原文本拆分為句子,在每個句子中過濾掉停用詞 可以不選 並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。2 每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,wn.則w1,w2,wk w2,w3,wk 1 w3,w4,wk ...
自然語言處理入門 中文分詞原理
1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2 中文分詞方法介紹 現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分...
統計自然語言處理書籍閱讀心得四
1 困惑度 我們通常用困惑度 perplexity 來代替交叉熵 衡量語言模型的好壞。同樣,語言模型設計的任務就是尋找困惑度最小的模型,使其最接 近真實語言的情況。在自然語言處理中,我們所說的語言模型的困惑度 通常是指語言模型對於測試資料的困惑度。一般情況下將所有資料分成 兩部分,一部分作為訓練資料...