3 1 自然語言處理介紹

2021-10-06 05:14:41 字數 2569 閱讀 4862

了解自然語言處理的願景和經典任務

知道圖靈測試

很多科幻片裡面,都會有一些機械人能夠用人類的語言與人類溝通。

比如,電影機械人總動員裡的清潔機械人瓦力

就是可以用自然語言(英語)對話的。

希望計算機具有處理人類語言的能力的這種想法出現已久。

我們把這種能夠使用自然語言與人類會話的程式稱為對話系統(dialogue systems)

事實上,要深入研究對話系統,就要研究它的各個組成部分。

其中包括:

西方宗教中傳說人們擔心會有諾亞時代的大洪水重新來臨,所以決定齊心協力建造一座能夠通往天堂的高塔。這個時候,所有人還都是一樣的口音。

隨著塔建立的越來越高,上帝驚慌了。決定擾亂人們的程序,所以把人們變得語言不通。造塔也因此無法繼續進行了。

儘管人類人工可以翻譯一些書籍文獻等資訊。但是面臨瀚如煙海的網際網路資訊,人類翻譯遠遠不夠方便。

機器翻譯(machine translation)的目標就是自動的把文字從一種語言翻譯成另外一種語言。

語言總是和我們的認知能力糾纏在一起。

如果計算機能夠像人類一樣熟練地處理語言,那麼就一位置計算機已經達到可真正的智慧型機器的水平。

圖靈是第乙個認識到計算機與認知能力之間有著如此密切關係的科學家。

在他的一篇**中,圖靈提出了圖靈測試(turing test)的想法。

圖靈在他的**的開頭就指出,關於社麼是機器思維的問題是不能回答的,因為機器(machine)和思維(think)這兩個屬於本身就是含糊不清的。

所以他建議做乙個遊戲來進行測試,在遊戲中,計算機對語言的使用情況就可以用來作為判斷計算機能否進行思維的根據。如果計算機在遊戲中獲勝,那麼就可以判斷計算機具有智慧型。

在圖靈的遊戲中有三個參加者:兩個人和一台計算機。其中乙個人充當提問者的角色,他要是用電傳打字機向另外兩個參加者提出一系列問題,根據這兩個參加者的回答判斷哪乙個回答是計算機作出的。計算機的任務是盡量設法來愚弄提問者,對於提問者的問題,盡量做出如人一樣的回答,設法使提問者相信它真的是乙個人。而第二個參加遊戲的人則盡量使提問者相信第三個參加者是計算機,只有他和提問者才是人。

本小節我們介紹了人類關於使用機器來處理自然語言的最初的願景和經典任務:

機器翻譯(machine translation).

這些任務直到今天都還是沒有完美解決的問題。我們稍後會介紹在這幾個子領域中所使用的各種演算法和比較重要的一些區域性性工作。

了解自然語言處理所涉及的特有的領域知識

自然語言處理(natual language processing)的程式與其他的程式最大的區別在於,自然語言處理的應用需要用到語言知識。

以語音識別為例,機械人(應用/程式)必須能夠分析聲音頻號,這就需要一些語音學(phonetics)的知識。

機械人(應用/程式)在理解文字時,又需要知道句子是如何排列,以及為什麼會如此排列,這就需要具有句法(syntax)的知識。如果是英文,單詞又有很多變體(比如名詞的複數形式,動詞的時態等等),這就需要形態學(morphology)的知識,等等。

這些語言知識對於我們使用演算法來處理自然語言都有很大的幫助,尤其是在自然語言理解上。

難度:※ 一顆星

校長說衣服上除了校徽別別別的

這幾天天天天氣不好

「你看到王剛了嗎」「王剛剛剛剛走」

難度:※※ 兩顆星

來到楊過曾經生活過的地方,小龍女動情地說:「我也想過過過兒過過的生活。」

那輛白車是黑車

能穿多少穿多少

難度:※※※ 三顆星

寫給賣豆芽的對聯: 長長長長長長長,長長長長長長長。

季姬寂,集雞,雞即棘雞。棘雞饑嘰,季姬及箕稷濟雞。雞既濟,躋姬笈,季姬忌,急咭雞,雞急,繼圾幾,季姬急,即籍箕擊雞,箕疾擊幾伎,伎即齏,雞嘰集幾基,季姬急極屐擊雞,雞既殛,季姬激,即記《季姬擊雞記》。

石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅。十時,適十獅適市。是時,適施氏適市。施氏視是十獅,恃矢勢,使是十獅逝世。氏拾是十獅屍,適石室。石室溼,氏使侍拭石室。石室拭,氏始試食是十獅屍。食時,始識是十獅屍,實十石獅屍。試釋是事。《施氏食獅史》

去商店買東西一算賬1001塊,小王對老闆說:「一塊錢算了。」 老闆說好的。於是小王放下一塊錢就走了,老闆死命追了小王五條街又要小王付了1000,小王感慨:#自然語言理解太難了#

要去見投資人,出門時,發現車鑰匙下面壓了一張員工的小字條,寫著「老闆,加油!」,瞬間感覺好有溫度,當時心理就淚奔了。心裡默默發誓:我一定會努力的! 車開了15分鐘後,沒油了。。。

歧義問題

句法語義

語用創造性

人稱指代

語義遞迴

經過上面的分析,我們會發現,雖然自然語言處理(理解中)存在著各種各樣的問題。但是總歸是可是用語言知識,把它具體成某一方面的問題的。具體如何解決以上的問題。我們留到後面學科實際已用例子中分析。

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...