4 自然語言處理的技術領域
4.2 自動文摘
5 自然語言處理的**和展望
總結青島理工大學-趙京勝等人-2023年7月
摘要:自然語言處理涉及許多領域,包括詞彙、句法、語義和語用分析,文字分類、情感分析、自動摘要、機器翻譯和社會計算等。隨著通訊和計算機相關技術的發展,自然語言處理的應用需求也越來越大。分析自然語言處理的相關背景、常用方法和應用領域,並對 nlp 的發展進行了展望。
自然語言處理主要分兩個流程:自然語言理解nlu和自然語言生成nlg
自然語言理解nlu主要是理解文字的含義,具體到每個單詞和結構都需要被理解
自然語言生成nlg通過評估情況和可用的交際資源來計畫如何實現目標,並將計畫形成文字
2023年以前:萌芽期
1957-2023年:快速發展期
1971-2023年:低谷發展期
2023年至今:復甦融合期
隱馬爾可夫模型?(好像經常聽到,只能學了!衝!)
中文資訊處理主要是對字、詞、段落或篇章進行處理。主要方法分別是基於規則和基於統計的方法,前者是人工根據語言相關的規則對文字進行處理;後者則是通過大規模的資料庫分析資料,從而實現對自然語言的處理。
自然語言處理受資料影響較大,而資料的增長是大多數 nlp 應用(如機器翻譯)效能提高的原因,所以擁有強大的資料支援才可以更好的對文字進行進一步的理解和分析,這使得如今很多nlp 應用程式採用資料流分析方法。
自然語言處理的大致流程:
1)獲取語料
2)對語料進行預處理,其中包括語料清理、分詞、詞性標註和去停用詞等步驟
3)特徵化,即向量化,主要把分詞後的字和詞表示成計算機可計算的型別(向量),這樣有助於較好的表達不同詞之間的相似關係
4)模型訓練,包括傳統的有監督、半監督和無監督學習模型等,可根據應用需求不同進行選擇。但在模型訓練時可能會出現過擬合和欠擬合的狀況。解決過擬合的方法主要有增加正則化項從而增大資料的訓練量,解決欠擬合則要減少正則化項,增加其他特徵項處理資料才行。
5)對建模後的效果進行評價,常用的評測指標有準確率、召回率、f值等。準確率是衡量檢索系統的查準率;召回率是衡量檢索系統的查全率;而f值是綜合準確率和召回率用於反映整體的指標,當f值較高時則說明試驗方法有效。
詞法分析主要包括分詞、詞性標註、命名實體識別和詞義消歧。
詞性和詞義標註是詞法分析的主要任務。詞性是詞彙最基本的語法屬性,使用詞性標註便於判定每個詞的語法範疇。詞義標註、詞義消歧主要解決多語境下的詞義問題,因為在多語境下乙個詞可能會擁有很多含義,但在固定情境下意思往往是確定的。在中文自然語言處理的分詞模組中,詞法分析是最核心的一部分,只有做好分詞工作,剩下的工作才能順利進行。
命名實體識別的主要任務是識別文字中具有特定意義的詞語如人名、地名等,並為其新增標註,是自然語言處理的乙個重要工具。
詞法分析的實現主要通過基於規則、基於統計、基於機器學習的方法。
句法分析的主要任務是為了確定句子中各組成成分之間的關係,也就是其句法結構,技術實現上主要分為修辭結構分析和依存關係分析,功能上可分為完全句法分析和區域性句法分析。
完全句法分析是要通過一套完整的分析過程獲得乙個句子的句法樹,區域性分析也叫淺層分析,僅獲得區域性成分的語法。目前應用較多的依存分析是指對句子中詞彙之間的依存關係進行分析。
對完全句法分析來說,chomsky 形式文法是極為重要的理論,根據重寫規則分為 4 級 ,分別是 0 型文法(無約束文法)、1 型文法(上下文有關文法)、2 型文法(上下文無關文法)和 3 型文法(正則文法)。這 4 種文法統稱為短語結構語法。
淺層句法分析可分為兩個子任務:其一是識別和分析語塊,其二是分析語塊之間的依附關係。依存句法也稱從屬關係語法。乙個依存關係可分為核心詞和依存詞。核心詞是乙個句子的根節點,乙個句子只有乙個,它負責支配句子中的其他詞,核心詞一般與依存詞之間存在著一定的關係,如主謂關係、動賓關係和並列關係等。
對於不同的語言單位,語義分析有著不同的意義。在詞的層面上,語義分析指詞義消歧;在句的層面上指語義角色標註;在篇章的層面上指共指消解。語義分析是目前 nlp研究的重點方向。
語義分析目前很難
語用分析主要是把文字中的描述和現實相對應,形成動態的表意結構。
語用分析有四大要素:發話者、受話者、話語內容和語境。前兩者指語言的發出者和接受者;話語內容指發話者用語言符號表達的具體內容;語境指言語行為發生時所處的環境,主要有上下文語境、現場語境、交際語境和背景知識語境。
自然語言處理作為乙個多學科交叉的研究領域,涉及到許多的研究和應用技術,包括資訊檢索、文字分類和自動文摘等。
**資訊檢索(ir)**有兩方面的任務,第一是儲存海量資訊,第二是根據使用者需求快速查詢相關資訊
文字分類是根據一套分類規則對文字進行自動分類的過程
情感分析是一種通過判斷文字情感極性去表徵文件的技術
機器翻譯是通過計算機將一種語言翻譯到其他語言
社會計算是採用網際網路、大資料和機器學習等技術來研究社會問題,並尋找出一種合適的方法去解決問題。
資訊抽取是將嵌入在文字中的非結構化資訊提取並轉換為結構化資料的過程,從自然語言構成的語料中提取出命名實體之間的關係,是一種基於命名實體識別更深層次的研究。
資訊抽取的主要過程有三步:
1)對非結構化的資料進行自動化處理
2)針對性的抽取文字資訊
3)對抽取的資訊進行結構化表示
資訊抽取最基本的工作是命名實體識別,而核心在於對實體關係的抽取
非結構化:如文字
傳統的資訊抽取的方法主要有兩種:基於規則和基於統計的方法。
近年來,資訊抽取工作越來越依賴機器學習的演算法,所以機器學習在一些方面的突破為資訊抽取提供了技術上的支援。
資訊抽取主要工作包括實體識別與抽取、實體消歧、關係抽取和事件抽取等。其中基礎性工作是命名實體識別(ner),其主要任務是識別文字中具有特定意義的詞語,並為其新增相應的標註,為後續工作奠定基礎。
自動文摘是利用計算機按照某一規則自動地對文字資訊進行提取、集合成簡短摘要的一種資訊壓縮技術,旨在實現兩個目標:首先使語言的簡短,其次要保留重要資訊。
主要分為抽取式摘要和生成式摘要
除此之外還可以根據輸入文字的數量分為單文字摘要和多文字摘要等。
自動文摘的主要過程有三步,首先對語料進行預處理,識別冗餘資訊;其次是對文字內容進行選取和泛化;最後對文摘進行轉換和生成,就是對文字內部進行重組生成文摘,生成的摘要具有壓縮性、內容完整性和可讀性的特點。
自動文摘的主要方法包括:基於規則的方法、基於圖模型的方法、基於理解的方法和基於結構的方法等。
哈爾濱工業大學劉挺教授在第三屆中國人工智慧大會上提到:可以使閱讀理解作為乙個深入探索自然語言理解的平台,google 也已經推出了這樣的測試機,也就是說讓計算機理解一篇文章,接下來人類對計算機進行提問,觀察計算機的回答能力完成測試。
NLP自然語言處理
第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...
NLP自然語言處理
老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...
自然語言處理研究綜述
自然語言是指漢語 英語 俄語等人們日常使用的語言,區別於人工語言,如程式設計的語言。自然語言處理,是指用計算機對自然語言的形 音 義等資訊進行處理,即對字 詞 句 篇章的輸入 輸出 識別 分析 理解 生成等的操作和加工。實現人機間的資訊交流,是人工智慧界 電腦科學和語言學界所共同關注的重要問題。自然...