自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理處理的內容涉及到語言的各個層次,包括字、詞、句、段落、篇章和語義。
目前自然語言處理的主要研究和應用方向有:
1、 統計語言模型: 統計語言模型是自然語言處理的主流技術之一。我們研究的主要內容包括各種語言模型的構建、改進以及應用,包括n元文法模型、隱馬爾科夫模型、最大熵模型等。
2、 非齊次概率建模:在自然語言處理領域中,各級語言元素(字、詞、詞性、組塊、短句……)因其語法語義屬性不同,其可以充當的語言成分不同,因此,其在語言元素序列中出現的位置和範圍具有一定的規律性。上述規律性通常對應概率模型中的非齊次性假設,因此又稱為語言元素的非齊次屬性。語言元素非齊次現象是語言元素的普遍現象,語言元素的非齊次屬性是語言元素的本質屬性。非齊次概率建模期望將語言元素的非齊次屬性進行量化表示並加以利用,從而提高傳統概率模型的效能,增強概率模型在自然語言處理各項任務中的應用效果。
3、 漢字處理: 漢字處理解決在計算機及移動裝置上輸入漢字的問題。研究內容包括音字轉換、手寫體識別以及鍵盤輸入等問題。
4、 詞法分析:詞法分析的主要目的是找出詞彙的各個詞素,從中獲得語言學資訊。詞法分析是很多中文資訊處理任務的必要步驟。很多應用,如搜尋引擎、機器翻譯都需要詞法分析的支援。詞法分析的主要研究內容包括自動分詞、詞性標註、歧義消解、新詞識別等,採用的方法主要以統計機器學習為主。
5、 命名實體識別:命名實體識別的任務是自動識別文字中的人名、地名、機構名等各種實體。命名實體識別可以提高語言理解的準確性,是資訊抽取系統的重要組成部分。命名實體識別的主要研究內容包括識別語料的標註、識別規則的自動抽取、識別模型的構建以及識別特徵的自動選取等。
6、 句法分析:句法分析是對句子和短語的結構進行分析。句法分析可分為完全句法分析和淺層句法分析。句法分析是語言學理論和實際的自然語言應用的乙個重要橋梁。乙個實用的、完備的、準確的句法分析將是計算機真正理解自然語言的基礎。
7、 語義分析:在過去,計算語言學研究集中在詞法分析和句法分析上,基於規則、基於統計的語法分析技術率先在自然語言處理領域得到廣泛運用。目前,隨著internet網路應用的普及和深入,多語種內容資訊的理解和處理逐漸受到人們的關注。語義分析的研究,如詞義排歧和語義歸納、推理等,開始處於萌芽期並將逐步走向前台,成為下一階段計算語言學研究的乙個亮點。計算機本身沒有智慧型,自然語言的語義分析和內容資訊的理解,離不開相應的語義知識庫的支援,它是幫助計算機「了解」人類語言的乙個媒介和橋梁,也是讓計算機逐漸「聰明」起來的乙個物質前提。語義分析主要研究基於語義知識庫的語義相似度的計算方法、語義知識庫的自動構建等內容。
8、 語料庫多級加工:語料庫語言學是以語料庫為基本知識源來研究自然語言規律的學科,其中語料庫加工的理論、方法和工具和基於語料庫的知識獲取是語料庫語言學研究的主要內容。語料庫是按照一定的原則組織在一起的真實的自然語言資料(包括書面語和口語)的集合,主要用於研究自然語言的規律,特別是統計語言學模型的訓練以及相關系統的評價和測試。所謂語料庫標註或加工就是對電子語料(包括書面語和口語)進行不同層次的語言學分析,並新增相應的"顯性"的解釋性的語言學資訊過程。與不同層次的自然語言分析相對應,語料庫的加工主要包括詞性標註、句法標註、語義標註、言語標註和語用標註等,由於漢語書寫的特殊性,漢語的語料加工還包括分詞。
自然語言處理的專業英語:
學習和研究中文分詞問題,引起了我對中文分詞的極大興趣,甚至到了無法自拔的地步.我非常希望,能夠通過自己的學習和研究,自己開發一套高效能的中文處理系統.但越學習越深入,越發現自己的知識的缺乏.熟練掌握一門程式語言是最基本的,另外涉及到概率論、統計和語言學、漢字編碼等諸多複雜問題。因為這些問題同時也是國際上的熱點問題,在學習這些內容時不可避免的要遇到一些英語問題。本文將最近所遇到的該領域的專業英語及其含義做乙個簡單的小結,列舉如下。
corpus 語料庫。其本義是屍體、文集的意思。記住哦,在統計自然語言處理領域它是語料庫的意思。它是文字的集合,這裡的「文字」通常是指文字檔案,如記事本及其內容。為了便於理解和統計的方便,人們通常會把詞彙資訊儲存在這樣的文字中。多個文字便構成乙個語料庫了。
corpora 語料庫集合。它是語料庫corpus的複數形式,顧名思義,是指多個文字集合的集合,即多個語料庫的集合。
lingusitic competence 語言能力。反映了母語說話者腦海中假設存在的語言結構知識。
linguistic performance 語言效能。它受一系列事物的影響,例如記憶的侷限性和環境的傳遞噪音。
parse 語法分析。給定乙個合理的語法,對乙個標準的自然語句進行句法分析,句法分析的結果就是parse。
wordnet 詞網。是乙個英語電子詞典。詞彙被組織到乙個網路層次中。每個節點由相近意思的詞集組成。
word token 詞次。指文字的長度,例如在某個語料庫中,其文字包含有71370個詞次(token)。
word type 詞形。指文字中出現多少個不同單詞的個數(在英文中是這樣,在中文中有所區別)。
根據token和type,我們可以計算其比值,他表示每個type出現的平均次數。
hapax legomena 罕用語。它是希臘語,表示預料庫中只出現一次的單詞。
bigram 二元組。
prior probability 先驗概率。
posterior probability 後驗概率。
binomial distribution 二項分布。
bayes optimal decision 貝葉斯最優決策。
mutual information 互資訊。
capacity 通道容量。
perplexity 混亂度。在語音識別領域中,人們通常用混亂度而不是交叉熵來描述乙個模型的好壞。
parts of speech ,pos 詞性。通常說來詞性有三類:名詞、動詞、形容詞。
n-gram n元語法模型。即馬爾可夫模型。
stemming 詞幹化,取詞根。
dictionary-based disambiguation 基於詞典的消歧。
function fitting 函式擬合,就是說基於一些資料點推斷出函式的形態。
hidden markov model, hmm。 隱馬爾可夫模型。
rule based 基於規則
corpus based 基於語料庫。
conditional probability 條件概率
transitive probability 轉移概率
neighboring pairs of words 詞語接續對。
maximum likehood estimation 最大似然估計
data sparse 資料稀疏
自然語言處理應用方向和專業英語
自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理處理的內容涉及到語言的各個層次,包括字 詞 句 段落 篇章和語義。目前自然語言處理的主要研究和應用方向有 1 統計語言模型 統計語言模型是自然語言處理的主流技術之一...
自然語言處理的應用
這篇文章是應老師要求創作的關於自然語言處理在自己專業的應用,因為我是計科專業,其應用較為廣泛,所以下面就來 自然語言處理的應用。1.詞法分析 基於大資料和使用者行為,對自然語言進行中文分詞 詞性標註 命名識體識別,定位基本語言元素,消除歧義,支撐自然語言的準確理解。中文分詞 將連續的自然語言文字,切...
什麼是自然語言處理,自然語言處理目前的應用有哪些?
自然語言處理大體包括了自然語言理解和自然語言生成兩個部分,實現人機間自然語言通訊意味著要使計算機既能理解自然語言文字的意義,也能以自然語言文本來表達給定的意圖 思想等,前者稱為自然語言理解,後者稱為自然語言生成。自然語言處理是電腦科學領域與人工智慧領域中的乙個重要方向。自然語言處理的終極目標是用自然...