自然語言處理知識 總結

2021-10-06 18:20:41 字數 2638 閱讀 7008

下面直接開始正文:

一、自然語言處理概述

1)自然語言處理:利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的演員問題的一門學科,是人工智慧的主要內容。

2)自然語言處理是研究語言能力和語言應用的模型,建立計算機(演算法)框架來實現這樣的語言模型,並完善、評測、最終用於設計各種實用系統。

3)研究問題(主要):

資訊檢索

機器翻譯

文件分類

問答系統

資訊過濾

自動文摘

資訊抽取

文字挖掘

輿情分析

機器寫作

語音識別

研究模式:自然語言場景問題,數學演算法,演算法如何應用到解決這些問題,預料訓練,相關實際應用

自然語言的困難:

場景的困難:語言的多樣性、多變性、歧義性

學習的困難:艱難的數學模型(hmm,crf,em,深度學習等)

語料的困難:什麼的語料?語料的作用?如何獲取語料?

二、形式語言與自動機

語言:按照一定規律構成的句子或者字串的有限或者無限的集合。

描述語言的三種途徑:

窮舉法文法(產生式系統)描述

自動機自然語言不是人為設計而是自然進化的,形式語言比如:運算符號、化學分子式、程式語言

形式語言理論朱啊喲研究的是內部結構模式這類語言的純粹的語法領域,從語言學而來,作為一種理解自然語言的句法規律,在電腦科學中,形式語言通常作為定義程式設計和語法結構的基礎

形式語言與自動機基礎知識:

集合論圖論

自動機的應用:

1,單詞自動查錯糾正

2,詞性消歧(什麼是詞性?什麼的詞性標註?為什麼需要標註?如何標註?)

形式語言的缺陷:

1、對於像漢語,英語這樣的大型自然語言系統,難以構造精確的文法

2、不符合人類學習語言的習慣

3、有些句子語法正確,但在語義上卻不可能,形式語言無法排出這些句子

4、解決方向:基於大量語料,採用統計學手段建立模型                              

三、語言模型

1)語言模型(重要):通過語料計算某個句子出現的概率(概率表示),常用的有2-元模型,3-元模型

2)語言模型應用:

語音識別歧義消除例如,給定拼音串:ta shi yan yan jiu saun fa de

可能的漢字串:踏實菸酒演算法的   他是研究酸法的      他是研究演算法的,顯然,最後一句才符合。

3)語言模型的啟示:

1、開啟自然語言處理的統計方法

2、統計方法的一般步驟:               

收集大量語料

對語料進行統計分析,得出知識

針對場景建立演算法模型

解釋和應用結果

4) 語言模型效能評價,包括評價目標,評價的難點,常用指標(交叉熵,困惑度)

5)資料平滑:

資料平滑的概念,為什麼需要平滑

平滑的方法,加一法,加法平滑法,古德-圖靈法,j-m法,katz平滑法等

6)語言模型的缺陷:

語料來自不同的領域,而語言模型對文字型別、主題等十分敏感

n與相鄰的n-1個詞相關,假設不是很成立。

四、概率圖模型,生成模型與判別模型,貝葉斯網路,馬爾科夫鏈與隱馬爾科夫模型(hmm)

1)概率圖模型概述(什麼的概率圖模型,參考清華大學教材《概率圖模型》)

2)馬爾科夫過程(定義,理解)

3)隱馬爾科夫過程(定義,理解)

hmm的三個基本問題(定義,解法,應用)

五、馬爾科夫網,最大熵模型,條件隨機場(crf)

1)hmm的三個基本問題的引數估計與計算

2)什麼是熵

3)em演算法(應用十分廣泛,好好理解)

4)hmm的應用

5)層次化馬爾科夫模型與馬爾科夫網路

提出原因,hmm存在兩個問題

6)最大熵馬爾科夫模型

優點:與hmm相比,允許使用特徵刻畫觀察序列,訓練高效

缺點: 存在標記偏置問題

7)條件隨機場及其應用(概念,模型過程,與hmm關係)

引數估計方法(gis演算法,改進iis演算法)

crf基本問題:特徵選取(特徵模板)、概率計算、引數訓練、解碼(維特比)

應用場景:

詞性標註類問題(現在一般用rnn+crf)

中文分詞(發展過程,經典演算法,了解開源工具jieba分詞)

中文人名,地名識別

8)  crf++

六、命名實體 識別,詞性標註,內容挖掘、語義分析與篇章分析(大量用到前面的演算法)

1)命名實體識別問題

相關概率,定義

相關任務型別

方法(基於規程->基於大規模語料庫)

2)未登入詞的解決方法(搜尋引擎,基於語料)

3)crf解決命名實體識別(ner)流程總結:

訓練階段:確定特徵模板,不同場景(人名,地名等)所使用的特徵模板不同,對現有語料進行分詞,在分詞結                      果基礎上進行詞性標註(可能手工),ner對應的標註問題是基於詞的,然後訓練crf模型,得到對應權值引數值

識別過程:將待識別文件分詞,然後送入crf模型進行識別計算(維特比演算法),得到標註序列,然後根據標                            注劃分出命名實體

自然語言處理(NLP)知識結構總結

原文 一 自然語言處理概述 1 自然語言處理 利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的演員問題的一門學科,是人工智慧的主要內容。2 自然語言處理是研究語言能力和語言應用的模型,建立計算機 演算法 框架來實現這樣的語言模型,並完善...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...