關於「如何學習自然語言處理」,有很多同學通過不同的途徑留過言,這方面雖然很早之前寫過幾篇小文章:《如何學習自然語言處理》和《幾本自然語言處理入門書》,但是更推崇知乎上這個問答:自然語言處理怎麼最快入門,裡面有微軟亞洲研究院周明老師的系統回答和清華大學劉知遠老師的傾情奉獻:初學者如何查閱自然語言處理(nlp)領域學術資料,當然還包括其他同學的無私分享。
chapter
slides
relation to 2nd ed.
1:introduction
[ch. 1 in 2nd ed.]
2:regular expressions, text normalization, and edit distance
text [pptx] [pdf]
edit distance [pptx] [pdf]
[ch. 2 and parts of ch. 3 in 2nd ed.]
3:finite state transducers
4:language modeling with n-grams
lm [pptx] [pdf]
[ch. 4 in 2nd ed.]
5:spelling correction and the noisy channel
spelling [pptx] [pdf]
[expanded from pieces in ch. 5 in 2nd ed.]
6:***** bayes classification and sentiment
nb [pptx] [pdf]
sentiment [pptx] [pdf]
[new in this edition]
7:logistic regression
8:neural nets and neural language models
9:hidden markov models
[ch. 6 in 2nd ed.]
10:part-of-speech tagging
[ch. 5 in 2nd ed.]
11:formal grammars of english
[ch. 12 in 2nd ed.]
12:syntactic parsing
[ch. 13 in 2nd ed.]
13:statistical parsing
14:dependency parsing
[new in this edition]
15:vector semantics
vector [pptx] [pdf]
[expanded from parts of ch. 19 and 20 in 2nd ed.]
16:semantics with dense vectors
dense vector [pptx] [pdf]
[new in this edition]
17:computing with word senses: wsd and wordnet
intro, sim [pptx] [pdf]
wsd [pptx] [pdf]
[expanded from parts of ch. 19 and 20 in 2nd ed.]
18:lexicons for sentiment and affect extraction
sentlex [pptx] [pdf]
[new in this edition]
19:the representation of sentence meaning
20:computational semantics
21:information extraction
[ch. 22 in 2nd ed.]
22:semantic role labeling and argument structure
srl [pptx] [pdf]
select [pptx] [pdf]
[expanded from parts of ch. 19 and 20 in 2nd ed.]
23:neural models of sentence meaning (rnn, lstm, cnn, etc.)
24:coreference resolution and entity linking
25:discourse coherence
26:seq2seq models and summarization
27:machine translation
28:question answering
29:conversational agents
30:speech recognition
31:speech synthesis
對於一直尋找如何入門自然語言處理的同學來說,先把這本書和這套課程拿下來才是乙個必要條件,萬事先有個基礎。
本條目發布於2023年07月24號。屬於自然語言處理分類,被貼了 dan jurafsky、james h. martin、nlp書籍、nlp入門、nlp課程、speech and language processing、史丹福大學,科羅拉多大學、深度學習、自然語言處理、自然語言處理書籍、自然語言處理入門、自然語言處理綜論、自然語言處理課程 標籤。作者是52nlp。
這裡推薦一批學習自然語言處理相關的書籍,當然,不止是自然語言處理,國內的書籍相對比較便宜,值得購買。
1、《自然語言處理綜論》,當年的入門書,不過翻譯的是第一版,英文名《speech and language processing>, 第三版據說很快就要出版(2023年),有條件的同學建議直接看英文版第二版。
2、《統計自然語言處理基礎》,另一本入門書籍,這本書的英文版貌似沒有更新,但是中文版貌似也不再發售了,當然,優先推薦讀英文版。
3、《python自然語言處理》,nltk配套叢書,有了上面兩本書的介紹,再加上一些python基礎,通過這本書進行相關的文字挖掘實戰,很不錯的乙個路徑。
4、宗成慶老師的《統計自然語言處理(第2版)》,當年讀書的時候大致看過第一版,作為入門書籍不錯。
5、國內青年學者劉知遠老師等合著的《網際網路時代的機器學習和自然語言處理技術大資料智慧型》,沒有仔細看過,僅供參考。
6、南大周志華老師的西瓜書《機器學習》,最近出版的書籍,國內難得學習機器學習的高質量書籍,評價非常高,強烈推薦。
7、cmu機器學習系主任tom mitchell院士的 《機器學習》,機器學習老牌經典書籍,歷久彌新。
華章引進的英文版也不貴,不過貌似沒貨:《機器學習(英文版》
8、比較新的一本機器學習書籍,被譽為內容全面的機器學習教程 machine learning期刊主編力作:《機器學習》
9、李航老師的這本《統計學習基礎》挺不錯的,簡潔明瞭:《統計學習基礎》
10、王斌老師翻譯的《大資料 網際網路大規模資料探勘與分布式處理(第2版)》,質量挺不錯的,對應的英文書籍是《mining of massive datasets》,有相應的官方主頁,提供相應的英文pdf,課程和課件資源。
————————————————————————————
自然語言處理中的若干問題( 1.
文字朗讀
(text to speech)/
語音合成
(speech synthesis)
2.語音識別
(speech recognition)
3.中文自動分詞
(chinese word segmentation)
4.詞性標註
(part-of-speech tagging)
5.句法分析
(parsing)
6.自然語言生成
(natural language generation)
7.文字分類
(text categorization)
8.資訊檢索
(information retrieval)
9.資訊抽取
(information extraction)
10.文字校對
(text-proofing)
11.問答系統
(question answering)
12.機器翻譯
(machine translation)
13.自動摘要
(automatic summarization)
14.文字蘊涵
(textual entailment)
1.單詞的邊界界定
在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,
漢語也沒有詞與詞之間的邊界。
2.詞義的消歧
許多字詞不單只有乙個意思,因而我們必須選出使句意最為通順的解釋。
3.句法的模糊性
自然語言的文法
通常是模稜兩可
的,針對乙個句子通常可能會
剖析(parse)出多棵
剖析樹(parse tree),而我們必須要仰賴
語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。
4.有瑕疵的或不規範的輸入
例如語音處理時遇到外國口音或地方口音,或者在文字的處理中處理拼寫,語法或者
光學字元識別
(ocr)的錯誤。
5.語言行為
與計畫
句子常常並不只是字面上的意思;例如,「你能把鹽遞過來嗎」,乙個好的回答應當是把鹽遞過去;在大多數上下文環境中,「能」將是糟糕的回答,雖說 回答「不」或者「太遠了我拿不到」也是可以接受的。再者,如果一門課程去年沒開設,對於提問「這門課程去年有多少學生沒通過?」回答「去年沒開這門課」要 比回答「沒人沒通過」好。
推薦一本書 《如何閱讀一本書》
讀書是一門藝術 多馬 正是秉持著這一 自由教育 的理念,阿德勒在他最著名的作品 如何閱讀一本書 獲得自由教育的技藝 how to read a book the art of getting a liberal education 進行了最充分的闡釋。我手上的這本商務印書館出版的中譯本 郝明義 朱衣...
如何閱讀一本書 pdf 如何快速閱讀一本書?
在 脫口秀大會 上圈粉無數的北大 最土 女生李雪琴,最近又火了,才華橫溢,說出來的梗有邏輯又搞笑,不得不讓人佩服,不難想象,出口成章的實力一定源於大量的輸入,會讀書的人真的很可怕。之前總是看到一些自律達人,一年讀1000本書,引經據典,信手拈來,這樣的人好像自帶光芒,作為普通人的我們心想自己為啥立下...
如何閱讀一本書?
正如這本書的譯者在序中所說 一氣讀完後,有兩種強烈的感覺。先是羞恥。我是個做出版工作的人,成日與書為伍,結果到那個春節前的兩個月才知道這本書,到自己四十四歲這一年才讀這本書,幾乎可說無地自容。今天才偶然得知這本經典的我也同樣覺得頗為羞愧,怎麼竟然以前一點都不知道呢?連忙去查檢視。商務出版社的書,質量...