人們總在創造新的語法規則,因而基於規則的方法來處理自然語言的並不能適用。因此我們不是通過規則來判斷句子是不是合乎語法,而是解決:語言使用中通常出現的是什麼形式。用來識別這些模式的主要工具是計數,就是統計方法。
1.1 理性主義和經驗主義
一、兩種學派的基本觀點
chomsky提出的語言本能的觀點:認為孩子們在幼年的時候聽到的語言是乙個有限的輸入,要觀察他們怎樣從這個有限的輸入中學到自然語言這樣複雜的東西是非常困難的。理性主義假定語言的關鍵部分(結構)是天生的,是生來就存在於大腦中的人類基因遺產的一部分,通過這個假設來迴避這個困難的問題。實際中,我們常使用文字作為語言的替代,把文字中的上下文關係作為現實世界中語言的上下文關係的替代品。把文字集合稱為語料庫(corpus),多個語料庫稱為語料庫集合(corpora)。經驗主義假設大腦中存在某些天生的聯想、模式識別和概括等認識能力,通過可以得到的豐富的感官輸入,使嬰兒學習到自然語言的詳細結構。在自然語言處理中,經驗主義方法認為可以通過乙個適當的語言模型學習複雜的和廣泛的語言結構,通過統計學、模式識別和機器學習的方法應用到大規模的語言使用例子中,得到模型的引數。
二、兩種學派方法上的區別
理性主義者探尋描述人類頭腦中的語言的模型(i-語言),文字(e-語言)是資料,提供間接的證據,這個證據可以被母語說話者下意識補充。並提出語言能力(linguistic competence)和語言效能(linguistic preformance)之間的關鍵區別。語言能力反映了母語說話者腦海中假設存在的語言結構知識,語言效能則受到一系列事物的影響,如記憶的性和環境的雜訊。同時認為人們可以孤立的看待語言能力並單獨表示它。雖然承認在規則之間存在競爭,但仍然依賴於絕對規則:乙個句子或者合乎語言,或者非法。1.2 科學內容經驗主義方法感興趣的是描述實際出現的e-語言,反對理性主義提出的孤立看待語言能力的觀點,注重刻畫語言的實際使用。導致了重視計算工作的經驗主義方法的復甦。對建立智慧型化系統(toy model)進行了探索,提出很多人工智慧的關鍵問題,得到一些現在仍在使用的方法,但很多方面並不如人意。現在,重點專注於探尋一些可以作用於現實世界中未經處理語料的方法,產給出方法的優劣評價。
大家對語言使用形式的頻率感興趣是有清晰的,毋庸置疑的科學原因的。
1.2.1 語言學需要回答的一些問題
兩個基本問題
第乙個問題是語料庫語言學的研究範疇,而乙個詞的使用模型可以作為乙個替代品,使人類深入理解它的語義和語用,因此我們可以用乙個基於語料庫的技術來處理第二個問題。但是語料庫中含有的語言模型更容易提示語言的句法結構。
1.2.2 語言中的非絕對現象
實際語言中,存在很多與絕對性規則假設相違背的現象,使用統計模型來理解語言更好(也許會有新的研究方法吧)。
語言中的非絕對現象和語言的演變歷史有關,隨著時間的變化導致詞彙和語法發生了改變。詞彙的變化主要是意思和詞性。
1.2.3 語言和認知是隨機現象
把概率作為解釋語言的一種科學方法的最基本論點認為:人類的認知是隨機的,因此語言也必須是隨機的,因為它是認知的乙個完整的部分。
現實世界中充滿了不確定和不完整的資訊,人們的認知過程可以被很好的形式化為隨機過程,或者至少限定在乙個可以處理不確定和不完整資訊構架的量化框架內。
1.3 語言中的歧義問題是自然語言中難以處理的原因
乙個自然語言系統需要確定文字的結構性問題。
傳統的句法分析系統試圖僅僅根據一些可能的結構來回答這個問題,這些結構可以認為某些詞一屬於某一詞性的情況下是合乎語法的,而歧義問題將導致句法分析結果數量成倍增長。因此,乙個實用的自然語言處理系統必須具有良好的消歧功能,要解決詞義、詞類別、句法結構和語義範疇的歧義問題。但是,結果歧義最小和最大化語法的作用範圍這兩個目標對於符號自然語言處理系統是矛盾的。
統計自然語言處理自動中語料庫中學習詞彙和結構偏向資訊,以此來探尋解決上述問題。我們認為存在大量詞彙之間的關係資訊,也就是說,一些單詞趨向於互相組成片語。這種搭配知識可以反映更為深入的語義關係。而且,統計模型可以在分析自然文字的大規模系統中成功的消除歧義。同時統計模型具有魯棒性和概括性,在含有錯誤的資料和新資料中效能優異。此外,模型引數是自動統計出來,自動學習方法,減少了人類建立系統的工作量,而且還提出乙個有趣的科學問題:如何獲得人類語言。
1.4 第一手資料
1.4.1 詞彙資源(大部分是收費的,而且是英文的)
1.4.2 詞的記數
兩個問題
問題一:文字中最常用的詞是什麼?出現次數最多的是功能性詞彙,限定代詞、介詞和補語成分,以及與文章主題相關的詞彙(這是乙個關鍵點),而且結果依賴於語料庫。對馬克吐溫的《tom sawyer》統計可以發現,最常用的100個詞出現的詞次約點總詞次的一半多一點;大約有一半的詞形只出現一次,這樣的詞稱為「罕見詞」(hapax legomena)。超過90%的單詞(詞形)出現的次數小於或等於10次,但是文字中12%的部分是由出現次數3次或小於3次的詞組成。問題二:一篇文章中有多少個詞?兩種解釋,一是詞次(word token),即文字的長度,也就是詞的總次數;二是詞形(word type),即有多少不同的詞,也就是不同事物的個數。token比type是每個詞平均出現的次數。
統計自然語言處理的困難:對於在語料庫中沒有出現或者幾乎不會出現的詞,我們很難**它們的行為。(統計語言學能解決的是已經出現了的語言現象,對於未出現的無法進行處理。)
1.4.3 zipf 法則
zipf 提出最小精力付出原理:人類將會盡可能最小化他們的可能平均工作率。
著名法則:zipf 法則
存在乙個常數k,使得f × r = k,其中f是詞出現的頻率,r是按照詞頻率大小排序的位置。例如:我們可以說排在第50位的詞的出現次數大約是排在第150位詞的3倍。其他一些法則按照zipf的理論:說話者和聽者都試圖去最小化他們的精力付出,因此,說話的人用乙個小的常用詞表來減少他們的精力付出(要求一詞多義),而聽者則用乙個大的詞表來減少他們的精力付出(要求一詞一義,減少消歧)。這個折中的方法就是出現次數和排列位置的倒數關係。
mandelbrot改進了zipf法則,使其對於高頻詞的低頻詞有更好的擬合:log f = logp - b log( r + p),其中p、b和p是文字的引數,總體衡量文字中詞彙使用的廣度。
法則一:詞彙語義數量正比於出現頻率的平方根,反比於詞表順序平方根。強法則的重要性法則二:實詞有聚焦在一起的趨向。規則:對於某乙個固定大小的間隔,它出現的次數和間隔大小成反比。換句話說,大部分情況下同乙個實詞趨向於在相鄰位置出現。
簡單來說:產生乙個長度為n的詞的概率是(26/27)的n次方乘以(1/27),即n個非空字元並在此之後產生乙個空格字元。1.4.4 詞的搭配由此可知:長度為n+1的詞的數量應該比長度n的詞多26倍,但出現頻率更少。
乙個搭配是乙個短語或者乙個可接受的習慣用法,並且它的整體意思不是各部分意思的簡單合併,詞的搭配包括復合結構(disk drive)、動詞短語(make up)和其他一些固定片語(bacon and eggs)。
單純分析文字中二元組,可以發現常用最多的詞的搭配是of the和in the這樣的結構。因此,需要把組成搭配對的詞彙的頻率歸一化(normalizing)。
在統計自然語言中,建模和資料分析之間是相互作用的,需要反覆衡量。1.4.5 語彙索引
尋找動詞框架,人們常使用上下文關鍵字索引程式來產生資料表示,可以按照左邊或者右邊的上下文對匹配詞彙進行分類。收集這些關於動詞出現的模式,可以用來指導統計句法分析。
在統計自然語言處理中,主要的任務就是對大規模資料進行統計。
統計自然語言處理基礎學習筆記(1)
識別文字中的搭配 識別搭配有很多方法,書中介紹了基於頻率的搭配識別,基於含義和主詞搭配之間距離的識別,基於假設測試和互資訊的識別。1.基於頻率的識別 如果兩個詞在一起出現了很多次,那麼就是乙個證據說明它們有特殊的功能,可以預計到的是僅僅找到最頻繁出現的二元組結果並不理想,會出現很多由2個功能詞組合的...
R語言學習之自然語言產生
己亥第一篇。本文主要介紹利用lstm long short term memory 神經網路來產生自然語言。使用r語言和keras包來完成工作。主要步驟有 1,將全部資料分成不同的訓練短語和目標字元 即短語的下乙個字元 2,將訓練短語和目標字元向量化 3,構建神經網路模型 4,訓練模型 5,模型對乙...
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...