筆記 自然語言處理NLP 概論

2021-10-19 22:27:29 字數 3645 閱讀 8079

(from 人文學院開設課程)

1.2 nlp的方法、特點和規律

自然語言處理的研究始於機器翻譯。

在語料庫建設方面:

在語言知識庫的構建方面:

這些工程的開發為語義知識體系的構建進行了有益的探索。

計算語言學學會(association of computational linguistics, acl)出版的computational linguistics雜誌,每年 舉辦acl會議,專門描述自然語言處理理論和系統設計,供計算語言學家、人工智慧專家、認知科學家、語音處理專家以及心理學家們參考。

是計算語言學學會的主頁,其中/u/db/acl/提供有關自然語言處理資源在網際網路上的搜尋服務,以方便人們找到相關網頁。

提供自然語言處理及相關領域電子版學術**。

是語言資料協會 (the linguistic data consortium,ldc)的主頁。

目前國內計算語言學和自然語言處理的研究基礎性課題主要有:

理性主義研究方法通常根據一套規則或程式,將自然語言理解為符號結構。該結構的意義可以從結構中符號的意義推導出來;

在乙個典型的自然語言處理系統中,句法分析器按照人所設定的自然語言語法把輸入句分析為句法結構,再根據一套語義規則把語法符號結構對映到語義符號結構。自然語言處理系統中的規則集通常是先驗的,即是由人設計好以後賦予機器的,因此這是一種典型的理性主義的方法。

經驗主義的研究方法主要是統計學的方法與神經網路學習方法。統計學方法試圖建立統計性的語言處理模型,並由語料庫中的訓練資料來估計統計模型中的引數。神經網路方法從給定訓練資料之間的輸入-輸出關係,由機器通過學習來獲得神經元之間的鏈結強度,以反映輸入與輸出狀態之間的對映關係。

簡而言之,理性主義強調基於規則的方法,經驗主義強調基於學習的方法。

語音識別領域在七十年代開始逐漸採用概率模型替代原來的基於規則的識別手段,概率模型的引數是通過對大量語聲語料進行統計訓練得來的。

概率模型的識別效果大大優於使用規則的方法,這給自然語言處理領域對文字語料的研究提供了有益的借鑑。研究文字語料庫的目的是從語料中發現包含在其中的語言使用規律。從而利用這些規律對庫內或庫外文本進行句法語義分析。

利用語料庫研究語言規律包括:

漢語的認知理論、模型不同於印歐語,後者在詞彙、語法、語用、語境諸層面上有明顯的介面區別,相互之間又有對應關係。

但漢語詞法和句法之間沒有明顯的界限。漢語由於沒有明顯的自然形態界限可以作為分詞依據,對詞沒有一致認可的定義。

總之,漢語的特點可歸納為:

這些特點也使在進行漢語資訊處理時要面臨以下幾個問題。

漢語的歧義問題

自然語言分為形式和內容兩部分:

若語言形式完全決定了語言的意義,則機器對語言的理解無二義,在漢語的生成中,難免會出現許多歧義現象。

漢語語法兼類現象(詞的同形異類現象)

同一形式的詞具有兩種或兩種以上語法功能類別的現象稱為兼類現象。如漢語中「連」這個詞兼有副詞、介詞、動詞、名詞和量詞五種詞性。兼類詞在詞典詞條中所佔的比重雖不高,但出現的頻率卻很高,而且越 是常用的詞兼類現象越嚴重。

乙個典型的漢語自然語言處理系統,一般包括以下幾個子課題的研究。

分詞:計算機進行漢語資訊處理時,其核心是對詞的處理,首先碰到是詞的切分。由於漢語句子中詞與詞之間無空格,必須把句中各詞正確地切分出來,才能正確理解和處理漢語句子。

詞性標註:詞性標註是在建立句法結構樹之前首先應明確文字中所有語法兼類詞在具體使用場合中所屬的詞性。

機用電子詞典與知識庫:自然語言處理技術離不開機用電子詞典。機用電子詞典(詞法詞典、句法詞典、語義詞典、維基百科等知識構成的知識圖譜)包含了語料加工處理所需的有關詞語的各種語言學知識,主要使用了句法特徵資訊,包括切分、詞性標註詞典和短語分析詞典。

規則庫:利用語言學知識庫通過把詞法、句法等語法知識、語義知識用一定的計算機知識表示的方法建立起來的規則庫,它依靠大量的語言學知識,並將該知識形式化,從而得到了大量不同型別的消除歧義的規則。這個庫在很大程度上是需要花費許多人工才能實現的。

目前最典型的語言學知識表示方法有:

20世紀80年代以來,國外又陸續推出一批新的語法理論和方法:

基於規則的分析法擅長表達語言的確定性現象,用規則表達直觀、明顯,處理效率比較高。

統計資訊庫

統計資訊庫包含了對語料庫資訊的各種統計結果,如帶詞性標註的詞頻統計表,鄰接詞同現概率矩陣,短語結構分布資訊等,它為基於統計的語料庫處理技術提供了客觀的語言分布資料。

詞頻統計是利用乙個大規模語料庫去統計詞頻、鄰接詞的同現概率,這些資料可認為是計算機從大規模語料中獲得的語言學知識。

另外,隨著網路搜尋引擎的飛速發展及電子閱讀、情報檢索、語義搜尋、機器問答等廣泛的應用極大地推動了中文知識圖譜的構建。

google搜尋於2023年5月份發布了「知識圖譜」(knowledge graph),是語義網路的擴充套件,通過對web知識的挖掘與獲取,從freebase、維基百科(wikipedia)、《中情局世界概況——the cia world factbook》等結構化或半結構化網頁中抽取資訊 。然後將搜尋結果進行知識系統化,用網路的結點代表實體/概念,網路的邊代表實體/概念之間的各種語義關係,目前已建立了超過5億個事物和35億條不同事物之間的關係。

2023年,hinton g.等人提出採用深層神經網路的深度學習來減少資料表徵的維數,深層網路的結構是一種分層結構,與人腦的結構接近,其研究結果表明深層網路具有優異的特徵學習能力。

通過訓練學習得到的特徵資料對所表徵的事物具有更本質的刻畫,通過無監督的訓練學習實現逐層初始化來克服深度學習的困難。

這種深層網路直接把海量資料輸入到深度學習演算法中,可以用較少的引數表示複雜的函式。

通過無監督的訓練學習,組合低層特徵形成更加抽象的高層表徵,系統會自動地從海量資料中學習並抽象出語言資訊的本質,從而發現資料的分布式特徵表示。

深度學習模擬人腦認知世界的過程,是目前腦認知與人工智慧近年的研究熱點。

很多國際著名的認知語言學家以此作為語言理解的模型,在語言處理過程中,深度學習通過分布表示,內建建模了物件之間的相似度,從大量未標資料得到的分布相似性被證實會顯著提高模型效能。

在生物學上模仿人腦認知世界的過程,其最大特點是自動學習輸入的多層表示,每層的特徵表徵某種隱含的概念,低層表徵經過逐層組合得到高層的更加抽象表示,是乙個經過多層抽象的過程。

深度學習在語言資訊處理領域正得到重視,在很多任務上取得了歷史上的最好效果。

對近代文學**計算風格分析,以定量的方式利用文字中可以量化的語言結構特徵來對文字風格和作者寫作習慣進行研究,其理論基礎是文字的語言結構特徵表現了作者個人在寫作活動中的言語特徵,是作者個人風格不自覺的深刻反映。

這些特徵(如字元、詞彙、句子、段落、語法、語義等)又可以在一定程度上通過數量特徵來進行刻畫和描述,採用資料統計、文字聚類、主成分分析、文字分類的統計學方法。結合資料和語言本體的知識來說明作者的語言風格,並進行差異比較,採用深度學習技術應用於文字的著作權歸屬判定,作者身份識別,文字風格分析等多個領域。

NLP自然語言處理

第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...

NLP自然語言處理相關

近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...