第一章 語言處理與python
1.1 文字和詞彙 基本講了nltk入門,concordance,similar,common_contexts,generate,識別符號(所有單詞計數len),型別(單詞型別總數set),詞彙多樣性(單詞平均詞頻)
1.2 將文字當做鍊錶 其實就是將文字中的單詞變成list中的元素
1.3 簡單的統計 詞頻率,詞語搭配(bigram,2-gram)red wine和the wine,計算其它東西,不同詞長度的出現次數。
1.4 回到python:決策與控制 python 巢狀等
1.5 自動理解自然語言 詞意消歧,指代消解,自動生成語言,機器翻譯,人機對話系統,文字的含義。
第二章 獲得文字語料和詞彙資源
2.1 獲取文字語料庫 基本是說nltk的基本語料庫,還有新增自己語料的教程
2.2 條件分布
(1)計算不同型別的文字,詞語的頻率,比如說news,和romance型別中文字中哪些詞用得多,使用conditionalfreqdist.
(2)使用雙連詞(bigram,2-gram)生成隨機文字,計算出雙連詞頻率後,給定乙個單詞,比如living ,然後給出緊跟單詞 creature
2.3 更多關於python:**重用 講了一下python程式設計
2.4 詞典資源
(1)詞彙表,停用詞,可檢查罕見詞彙或者拼寫錯誤單詞
(2)發音詞典,在nltk中包括美國英語的cmu發音詞典,每個單詞都有其發音,可通過發音找押韻詞
(3)比較詞典,在nltk中包含了多種語言的翻譯關係,斯瓦迪士核心此列表swadesh
(4)詞彙工具,toolbox,shoebox目前最流行的語言學家用來管理資料的工具,包含了各種語言詞彙,詞性,和其它語言翻譯關係
2.5 wordnet
1.wordnet面向語義的英語詞典,之所以命名有net說明其具有層次結構,結構包含了同義詞,上下級關係等,可用來查詢同義詞,語義相似度
第三章 處理原始文字
3.1 從網路和硬碟訪問文字
(1)通過本地磁碟訪問,進行切詞
(2)通過url直接訪問網頁
(3)通過搜尋引擎獲取資訊,比如搜尋」the of」然後會出現啥東西,該結果就可以說是和」the of」相匹配
(4)可通過feedparser第三方庫爬去部落格資訊
(5)pdf,word這種二進位制檔案可以使用第三方庫pypdf,pywin32
3.2 字串:最底層處理 其實就是一些python字串處理方法
3.3 使用unicode進行文字處理
3.4 使用正規表示式檢測片語搭配
3.5 正規表示式的有益應用 母音匹配,查詢詞幹
3.6 規範化文字 詞幹提取器,詞形歸併
3.7 用正規表示式為文字分詞
3.8 分割 斷句,分詞
3.9 格式化:從鍊錶到字串 一些字串和鍊錶的轉換,格式化等等,可以採用textwrap模組進行格式化輸出
第四章 編寫結構化程式
整章都在介紹python程式設計基礎
第五章 分類和標註詞彙
5.1 使用磁性標註器
5.2 標註語料庫
5.3 使用python字典對映詞及屬性
5.4 自動標註(自動詞性標註)
5.5 n-gram標註(在標註之前,考慮前n個詞後再標記)
5.6 基於轉換的標註
5.7 如何確定乙個詞的分類
第六章 學習分類文字
6.1 監督式分類
(1)nltk有內建的分類演算法
(2)探索上下文語境,根據上下文語境,將特徵詞的詞性作為特徵加進來
6.2 監督式分類舉例
(1)句子分割
(2)識別對話行為型別
(3)識別文字蘊涵
6.3 評估
6.4 決策樹
6.5 樸素貝葉斯分類器
6.6 最大熵分類器
6.7 為語言模式建模
第七章 從文字提取資訊
7.1 資訊提取
例子:給出一段文字,輸出***公司及公司的位置
流程 斷句(句子分割器)->分詞(分詞器)->(詞性標註)->命名實體識別(分塊技術)->確認關係
7.2 分塊
7.3 開發和評估分塊器
7.4 語言結構中的遞迴
7.5 命名實體識別
7.6 關係抽取
第八章 分析句子結構
未完待續
《Python自然語言處理》
python自然語言處理 基本資訊 出版社 人民郵電出版社 isbn 9787115333681 出版日期 2014 年6月 開本 16開 頁碼 508 版次 1 1 所屬分類 計算機 軟體與程式設計 python 更多關於 python自然語言處理 內容簡介 書籍計算機書籍 自然語言處理 natu...
什麼是自然語言處理? 語音和文字AI
從facebook上的乙個朋友 我 alexa 我已將龍舌蘭酒新增到您的購物清單中。理解機器學習的意義 人工智慧,機器學習和深度學習 您需要知道的一切 深度學習解釋了 機器學習的解釋 機器學習演算法進行了解釋 軟體工程師的機器學習技能 通過infoworld大資料和分析報告時事通訊深入了解分析和大資...
《python自然語言處理》筆記
工欲善其事,必先利其器 資源準備 python matplotlib包安裝見我的部落格 通過大量的例子和聯絡,python自然語言處理 將會幫助你 前言 為什麼使用python?操作file.txt檔案,輸出所有字尾是 ing 的詞。coding utf 8 for line in open r d...