系統學習NLP(三) NLP入門綜述

2021-08-30 23:58:59 字數 692 閱讀 8851

從這個月開始,進入nlp方向了,因此,系統了看了一遍《自然語言處理綜論》,對nlp做了點系統性的了解,後面抽時間乙個乙個業務或者方向進行實現學習。這裡主要是入門的認識,因此,大多數不涉及每個業務應用的最佳實現,比如基本沒有深度學習層面的(因為那本書只總結了2023年之前的),不過有了這個基礎,每個業務應用,可以針對性深入了解,作為乙個大綱吧。

參考:nlp是什麼呢?

1.語言是生物同類之間由於溝通需要而制定的具有統一編碼解碼標準的聲音(影象)指令。包含手勢、表情、語音等肢體語言,文字是顯像符號。

2.自然語言通常是指一種自然地隨文化演化的語言。例如英語、漢語、日語等。有別於人造語言,例如世界語、程式語言等。

3.自然語言處理包括自然語言理解和自然語言生成。自然語言理解是將自然語言變成計算機能夠理解的語言,及非結構化文字轉變為結構化資訊。

4.nlp的 四大經典「ai 完全 」 難題:問答、複述、文摘、翻譯,只要解決其中乙個,另外三個就都解決了。問答就是讓機械人很開放的回答你提的各種各樣問題,就像真人一樣;複述是讓機器用另外一種方式表達出來;文摘就是告訴你一篇很長的文章,讓你寫乙個100字的文摘,把它做出來是非常難做的;翻譯也是很困難的,英語思維方式和中文思維方式轉換過來,中間會涉及到很多複雜的問題。

nlp演算法歸類整理

上面這些,應該是阿里推出的應用介紹。我決定以後每個問題,都實現一次。。。

下面是我整理的書的筆記,好像也沒啥用。留著吧。

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

系統學習NLP(二十六) NBSVM

baselines and bigrams good sentiment and topic classification 參考 跟原文有一定差異,理解不一致。樸素貝葉斯 bayes,nb 和支援向量機 support vector machines,svm 的變體常被用作文字分類的基線方法,但它們...

系統學習NLP(二十七) EMLo

deep contextualized word representations 參考 elmo的語言理解是通過 訓練單詞序列中的下乙個單詞來實現,這項任務被稱為語言建模。這是很方便的,因為我們有大量的文字資料,這樣的模型不需要標籤就可以從中學習。今天給大家介紹一篇2018年提出的 deep con...