自然語言處理書單

2021-10-09 19:49:35 字數 3891 閱讀 6070

目錄書單

1. speech and language processing (3rd ed. draft)

2. foundations of statistical natural language processing

3.neural network methods in natural language processing (synthesis lectures on human language technologies)

5. introduction to information retrieval

2. 推薦課程

1.cs224d: deep learning for natural language processing

2.oxford deep learning for nlp class

4.資料集

自然語言處理(英語:natural language processing,縮寫作 nlp)是人工智慧和語言學領域的分支學科。此領域**如何處理及運用自然語言。自然語言處理研究的內容包括但不限於如下分支領域:文字分類、資訊抽取、自動摘要、智慧型問答、話題推薦、機器翻譯、主題詞識別、知識庫構建、深度文字表示、命名實體識別、文字生成、文字分析(詞法、句法、語法)、語音識別與合成等。以下自然語言處理書籍由數智物語根據公開資料、豆瓣評分綜合整理。

書籍簡介:2023年9月23日自然語言處理領域經典綜述教材《speech and language processing 》,中文名《自然語言處理綜述》第三版發布。該書由 nlp 領域的大牛,史丹福大學 daniel jurafsky 教授和科羅拉多大學的 james h. martin 教授等人共同編寫。daniel jurafsky 是史丹福大學電腦科學教授,主要研究方向是計算語言學和自然語言處理。 james h. martin 是科羅拉多大學博爾德分校電腦科學系一名教授,兩位教授都是 nlp 領域知名學者。

經典的 nlp 教科書,涵蓋了所有 nlp 的基礎知識,也被國外許多著名大學選為自然語言處理和計算語言學課程的主要教材。本書寫作風格引人入勝,深入技術細節而又不讓人感覺枯燥,不僅可以作為高等學校自然語言處理和計算語言學等課程的本科生和研究生教材,對於自然語言處理相關領域的研究人員和技術人員也是不可或缺的權威參考書。

書籍簡介:本書涵蓋的內容十分廣泛,分為四個部分,共16章,包括了構建自然語言處理軟體工具將用到的幾乎所有理論和演算法。全書的論述過程由淺入深,從數學基礎到精確的理論演算法,從簡單的詞法分析到複雜的語法分析,適合不同水平的讀者群的需求。同時,《統計自然語言處理基礎:國外電腦科學教材系列》將理論與實踐緊密聯絡在一起,在介紹理論知識的基礎上給出了自然語言處理技術的高層應用(如資訊檢索等)。

推薦理由:經典的統計自然語言處理入門教材。內容涉及統計自然語言處理用到的數學基礎,詞法到語法分析,以及自然語言處理的基本任務(比如文字分類、聚類,統計機器翻譯,以及資訊檢索)。本教材成書較早(2023年),但是自然語言處理領域的基本概念和任務沒有太大的變化,仍然適用於初學者快速了解自然語言處理相關的概念和任務,中文版本為《統計自然語言處理基礎:國外電腦科學教材系列》(電子工業出版社出版)。

書籍簡介:本書著重介紹神經網路模型在自然語言資料中的應用。書的前半部分介紹了有監督的機器學習和前饋神經網路的基礎知識,基於語言資料的機器學習的基礎知識。它還涵蓋了可以定義和訓練任意神經網路的計算圖形抽象方面的知識,是當代神經網路軟體庫設計的基礎。本書的第二部分介紹了更多專門的神經網路體系結構,包括一維卷積神經網路、遞迴神經網路、條件生成模型和基於注意力的模型。這些體系結構和技術是機器翻譯、句法分析和許多其他應用程式的最先進演算法的推動力量。最後,本書還討論了樹形網路,結構化**和多工學習的前景。

推薦理由:最近幾年由於深度學習的興起,使得影象識別、語音識別等多個方面都發生了很大的變革。深度學習在自然語言處理方面也是非常普遍了,一些經典的自然語言模式也都是基於神經網路的,這本書是目前市面上唯一一本介紹神經網路在自然語言處理的應用,而且書中的大量參考文獻非常有價值。本書的作者在這個領域非常知名,並且對待學術態度極其嚴謹。

書籍簡介:本書教你如何用 python 和 nltk 庫來做 nlp。提供了非常易學的自然語言處理入門介紹,該領域涵蓋從文字和電子郵件**過濾,到自動總結和翻譯等多種語言處理技術。你還將通過使用綜合語言資料結構訪問含有豐富注釋的資料集,理解用於分析書面通訊內容和結構的主要演算法。 

推薦理由:這本書的實用性較強。如果你對 python 與 nltk 感興趣,就看這本書,可以當做入門讀物來看,整本書即涉及到了語料庫的操作,也對傳統的基於規則的方法有所涉及。全書包括了分詞(tokenization)、詞性標註(pos)、語塊(chunk)標註、句法剖析與語義剖析等方面,是 nlp 中不錯的一本實用教程。

書籍簡介:本書從電腦科學領域的角度出發,介紹了資訊檢索的基礎知識,並對當前資訊檢索的發展做了回顧,重點介紹了搜尋引擎的核心技術,如文件分類和文件聚類問題,以及機器學習和數值計算方法。書中所有重要的思想都用示例進行了解釋,生動形象,引人入勝。

課程導師:richard socher

主要內容:史丹福大學自然語言小組基於深度學習的自然語言處理課程。介紹了自然語言處理領域廣泛應用的網路結構(例如迴圈神經網路、卷積神經網路以及遞迴神經網路等)及其在自然語言處理的經典任務,例如分類任務(情感分類),序列標註任務(實體識別),序列到序列的生成任務(機器翻譯)等實際應用。

推薦理由:自然語言處理是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。自然語言處理的應用無處不在,因為人們用語言溝通了大部分內容:網路搜尋、廣告、電子郵件、客戶服務、語言翻譯、放射學報告等等。本課程比較適合對這個領域感興趣的初學者。

課程導師:phil blunsom. class by deep mind nlp group.

適合人群:中級到高階學者

主要內容:deepmind 團隊成員在牛津大學教授基於深度學習的自然語言處理的課程。內容涉及到詞嵌入,基於迴圈神經網路的語言模型,基於迴圈神經網路和卷積神經網路的文字分類,基於迴圈神經網路的條件語言模型(廣泛應用於機器翻譯、文字摘要等)及其中的注意力機制,以及基於深度學習模型的自動問答等主要自然語言處理的任務。

coursera:自然語言處理簡介(由密西根大學提供的nlp課程)

資料集:見 nicolas iderhoff 在 github 上發布的 nlp 資源彙總:

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...