我以前雖然在研究中用過一些nlp相關方法,但是都僅限於最基礎的應用,最近開始系統性地自學nlp。將學習過程進度以及遇到問題的解決方案記錄於此,不求踩出一條路,只求為其他自學的朋友踩掉一些坑。首先,我依據以前的了解和收集的各處教程、網課,整理了nlp主要的學習大綱。因為一些方法我並沒有用過也不了解,所以可能邏輯上會存在問題,以後理解深刻會逐漸更正。
概率圖模型、馬爾科夫過程、隱馬爾科夫過程、馬爾科夫網、最大熵模型、條件隨機場(crf)
支援向量機、lstm、bert
語法分析:中文分詞、詞性標註、命名實體識別(人名、地名、機構名、日期)、新詞發現
語義分析:語義表示、語義消歧
語義關係:語義關係建模、語義關係抽取、語義關係計算
語句變換:近義詞替換、語義歸一化、省略糾錯
語句解析:句法結構分析、依存結構分析
語句表示:語義表示、文字分類、句子相似度
語句生成:規則模板、知識圖譜、機器翻譯
單文字分析:文字摘要、文字主題、文字分析、文件結構分析、文字語義分析、情感分析
多文字分析:文字主題、文字分類、文字排重、文字聚類、詞向量、文件相似度、主題模型(lda)、plsa
問答系統(問題分析、資訊檢索、答案抽取)、自動摘要(自動文摘)、機器翻譯、資訊檢索(布林模型、向量空間模型、概率模型)、文件分類、資訊過濾、資訊提取、文字挖掘、輿情分析、機器寫作、語音識別
大綱 教程
教程 網課
資源庫
學習NLP的第13天 語言模型
在了解了詞典分詞之後,我們發現一些類似於 商品和服務 的句子並不能被準確地識別。由此,我們設想如何能夠提高準確率?乙個簡單有效的方法就是通過人工置頂分詞結果的優先順序列表,並使用到分詞器中。但是這樣的方法顯然需要大量的人工成本,並不現實。所以我們考慮是否可以通過製作乙個完成分詞的語料庫,通過統計所有...
學習NLP的第21天 短語提取
將基於資訊熵和互資訊的新詞提取方法 第20天 中的字元替換為單詞,即可將其轉換為短語識別的方法。下面我們仍然使用神超直播間的彈幕的8個小時的時間切片作為例子,使用hanlp中的extractphrase方法實現。from pyhanlp import from utils import file d...
css div學習筆記第1天
1 一列固定寬度 layut 2 一列自適應寬度 layout 3 一列固定寬度居中 layout 說明 margin屬性用於控制物件的上 右 下 左四個方向的外邊距,當margin使用兩個引數時,第乙個引數表示上下邊距,第二個引數表示左右邊距。除了直接使用數值之外,margin還支援乙個值叫aut...