進行統計自然語言處理系統梳理,學習資料《統計自然語言處理.宗成慶》
目錄一、機器翻譯...
1二、語音翻譯...
1三、文字分類...
13.1基本概念...
13.2文字表示...
23.3特徵選擇...
23.5分類演算法...
23.7評介指標...
23.6情感分類...
2四、資訊檢索與問答系統...
34.1資訊檢索...
34.2問答系統...
3五、自動文摘與資訊抽取...
35.1自動文摘...
45.2資訊抽取...
45.3情感抽取...
4六、口語資訊處理與人機對話系統...
4機器翻譯就是用計算機來實現不同語言的翻譯。被翻譯的語言通常稱為源語言,翻譯成的結果語言稱為目標語言。
機器翻譯方法。在早期,一般採用直譯的方式:從源語言的表層出發,直接將詞、短語甚至句子直接轉換成目標語言,有時簡單進行些順序調整。其後,產生了基於規則的翻譯方法:1,對輸入文字進行分析,形成源語言抽象的內部表達;2,將源語言的內部表達轉換成目標語言的內部表達;3,根據目標語言內部表達生成目標語言文字。還有基於中間語言的翻譯:先將源語言分析成一種與具體語種無關的通用語言,再根據中間語言生成相應的目標語言。自20世紀80年代以來,基於語料庫的機器翻譯得到了迅速發展。近看來,統計翻譯成為了一種主流翻譯方法。
機器翻譯的目的是輔助人完成翻譯工作,而不是完全替代人的翻譯。
語音翻譯的基本原理。乙個鬆散的單向語音翻譯系統由三個主要的技術模組組成:1,自動語音識別器,將源語言語音識別成文字;2,機器翻譯引擎,將源語言文字翻譯成目標語言文字;3,語音合成器,將目的語言文字轉換成語音輸出。
語音翻譯的特點:1,從語言學角度講,口語句子中含有大量非規範語言現象;2,從語音上講,任何一種語音都在大量同音現象;3,從語音合成來講,希望合成的語音符合原語音的特點;4,知識利用,對話過程中其他一些資訊很難利用。
語音翻譯技術進展:1,語音翻譯系統的詞彙量已經不受到任何限制;2,系統對輸入語句的句型沒有嚴格限制,口語語音識別和翻譯的魯棒性得到提高;3,基於大規模語料的統計翻譯方法成為主流。
目前面臨的問題:1,口語的聲學特性分析有待進一步加強;2,翻譯方法有待進一步研究;3,系統的擴充套件能力和知識自動獲取能力有待進一步提高。
文字分類是在預定義的分類體系下,根據文字的特徵,將乙個文字與給定的乙個或多個類別相關聯的過程。
根據分類知識獲取方法的不同,分類系統可以分為二類:基於知識工程的分類系統和基於機器學習的分類系統。
常用的文字表示模型是向量空間模型(vector space model,vsm)。
向量空間模型:將乙個文字表示為乙個n維的向量,稱此向量為文字的向量表示或向量空間模型。
採用向量空間模型表示文件時,一般要經過二個步驟:1,根據訓練文字集生成文字表示所需要的特徵項序列;2,根據特徵序列,計算對應的權重序列或權重向量。
常用的特徵選擇方法:基於文件頻率,資訊增益法,x2方法,互資訊法,
3.4權重計算
常用的權重計算方法:布林權重,絕對詞頻(tf),倒文件頻率(idf),tf-idf等。
權重計算方法同特徵提取方法類似,缺少理論上的推導和驗證,因而,表現出的非一般性結果無法解釋。
常用的分類演算法如下。
樸素貝葉斯分類器。
svm分類器。
knn分類法。
基於神經網路的分類器。
決策樹分類器
線性最小平方擬合法。
模糊分類器。
基於投票的分類方法。
正確率,召回率,f-測試值,微平均和巨集平均。
情感分類是指根據文字所表達的含義和情感資訊將文字劃分成褒揚的或貶義的兩種或幾種型別,是對文字作者傾向性和觀點、態度的劃分。其可以視為一種特殊的分類問題。
資訊檢索研究的目的是尋找從文件資料中獲取可用資訊的模型和演算法。傳統的有二種檢索模型:精確匹配模型和文件時代匹配模型。前者主是應用於企業內部文字庫的檢索,後者主要體現於基於網際網路的檢索。
資訊檢索中二個關鍵技術:標引和相似度計算。建立統一的使用者查詢語句和候選查詢文字的數學表示模型,通常將查詢語句和候選文字都表示為詞向量;相似度,計算使用者查詢標引和候選查詢文字標引之間的相關度,基於詞向量標引方式的向量內積法是常用的相似度計算方法。
評介指標:準確率、召回率、f-測試值。
4.2.1基本概念
問題系統是:能夠接受使用者以自然語言形式描述的提問,並能從大量的異構資料中查詢或推斷出使用者問題的資訊檢索系統。
根據系統的應用目的和獲取問題答案所依據的資料,可以將問答系統劃分為基於固定語料庫的問題系統、網路問答系統和單文字問答系統。
基於常見問題集(freqquentlyasked questions.faq)的問答系統簡稱為faq問答系統,其典型用途是對企業產品或專業知識問題的問答系統。
4.2.2基本構成
問題系統基本構成:提問處理模組,檢索模組,答案抽取模組。
乙個問題系統的關鍵技術:基於海量文字的知識表示;問句解析;答案生成與過濾。
4.2.3基本方法
根據問題系統在各個模組中所採用的技術不同,問答系統可以分為四種型別:基於檢索的問答系統、基於模式匹配的問答技術,基於自然語言理解的問答技術,基於統計翻譯模型的問答技術。
4.2.4問題分類
問題系統問題分類:事實型問題,列表性問題,定義型問題,情景型問題,段落性問題,其他問題。
文字自動文摘是利用計算自動實現文字分析、內容歸納和摘要自動生成的技術。文字資訊抽取則是從自然語言文字中自動抽取指定型別的實體、關係、事件等事實資訊的技術。
分類。根據輸入文字的數量劃分,可以分為單文件摘要、多文件摘要。
步驟。自動文摘一般包含三個步驟:文字分析,文字內容的選取和活化,文摘的轉化和生成。
方法。目前採用的方法可以分為基於抽取的方法和基於理解的方法。
關鍵問題。無論哪種方法,都面臨三個關鍵問題:1,文件冗餘資訊的識別和處理;2,重要資訊辨識;3,生成文摘的連續性。
評測。評測方法可以分外內部評測和外部評測。內部評測指標有:召回率、準確率、冗餘率、偏差率。
方法分類:基於分析的方法和基於機器學習的統計方法。
關鍵問題:1,命名實體識別;2,句法分析;3,共指分析和歧義消解;4,實體關係識別;5,事件識別。
開放式資訊抽取重要問題:實體抽取,關係抽取,實體消歧。
情感資訊抽取是一種關於細粒度文字的情感分析技術,旨在抽取情感文字中有價值的情感資訊。情感資訊五元組(o,f,so,h,t):評介實體,評介物件,評介詞語,觀點持有者,評介時間。
情感資訊抽取的主要問題集中在二個方面:抽取觀點持有者和抽取評介物件。抽取觀點持有者的方法:1,基於命名實體識別的抽取方法;2,基於語義角色標註的抽取方法。
人機對話系統的6個技術模組:1,語音識別器;2,語言解析器;3,問題求解;4,語言生成器;5,對話管理;6,語音合成模組。
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
統計自然語言處理(詞法)
語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...
統計自然語言處理梳理四 篇章分析
進行統計自然語言處理系統梳理,學習資料 統計自然語言處理.宗成慶 篇章分析的最終目標是從整體上理解篇章,最重要的任務是分析篇章結構。篇章結構包括 語義結構,話題結構,指代結構等。概念依存理論。beaugrandeand dressler 1981 認為篇章有7個基本特徵 銜接性,連續性,意圖性,資訊...