機器學習第一次作業

2022-05-11 07:33:11 字數 4618 閱讀 6853

1、自然語言理解(nlu)

2、自然語言生成(nlg)

nlu 是要理解給定文字的含義。本內每個單詞的特性與結構需要被理解。在理解結構上,nlu 要理解自然語言中的以下幾個歧義性:

詞法歧義性:

詞法歧義性是指乙個單詞有多重含義。如train這個單詞,作為動詞使用時,它是訓練的意思,當作為名詞使用時,它是火車的意思。又如coach這個單詞可以表示為長途汽車,也可以作為教練的意思存在。又如一句諺語:never trouble troubles until troubles trouble you。這裡的trouble就有三個意思。

歧義消除方法

一、有監督消歧

貝葉斯分類

s = arg max p(sk|c), sk 是w可能包含的語義,c是歧義詞的上下文,而s是 使該概率最大的語義,即消歧後確定的語義。

基於資訊理論的方法。以w包含2個語義為例,基本思想是最大化 互資訊 i(p,q),p是w的語義集,q是w的指示器取值集(指示器 即能區分w不同語義的關鍵鄰近詞)。

例:法語「 prendre」的含義是take或make,其指示器可以是 decision,note,example,measure。p劃分為 p1 = 和p2=,

q分為q1 = 和q2 = , 如果w的指示器為note,出現在q1中,那麼w對應的語義應該對應地出現在p1中,即take。在這裡,p和q的集合劃分的原則是最大化 i(p,q)。該方法感覺和貝葉斯分類本質上類似,還是基於鄰近詞,根據概率判決,只是具體的公式不一樣。

二、 基於詞典的消歧(本質上也是無監督消歧的一種)

1.基於語義定義的消歧。如果詞典中對w的 第i種定義 包含 詞彙ei,那麼如果在乙個包含w的句子中,同時也出現了ei,那麼就認為 在該句子中 w的語義應該取詞典中的第i 種定義。

2.基於類義辭典的消歧。 詞的每個語義 都定義其對應的主題或範疇(如「網球」對應的主題是「運動」),多個語義即對應了多個主題。如果w的上下文c中的詞彙包含多個主題,則取其頻率最高的主題,作為w的主題,確定了w的主題後,也就能確定其對應的語義。

3.基於雙語對比的消歧。這種方法比較有創意,即把一種語言作為另一種語言的定義。例如,為了確定「interest」在英文句子a中的含義,可以利用句子a的中文表達,因為 interest的不同語義在中文的表達是不同的。如果句子a對應中文包含「存款利率」,那麼「interest」在句子a的語義就是「利率」。如果句子a的對應中文是「我對英語沒有興趣」,那麼其語義就是「興趣」。

三、無監督消歧

主要是使用em演算法 對w的上下文c進行無監督地聚類,也就是對 w的語義進行了分類。(當然,該分類的結果不見得就是和詞典中對該詞的定義分類是匹配的)。

語義角色標註概述

語義角色標註是一種淺層語義分析技術,它以句子為單位,不對句子所包含的予以資訊進行深入分析,而只是分析句子的謂詞-論元結構。具體一點講,語義角色標註的任務就是以句子的謂詞為中心,研究句子中各成分與謂詞之間的關係,並且用語義角色來描述它們之間的關係。

句法歧義性

句法歧義消除方法

使用概率分布的上下文無關語法(probabilistic context-free grammar)

由於語法的解析存在二義性,我們就需要找到一種方法從多種可能的語法樹種找出最可能的一棵樹。一種常見的方法既是pcfg (probabilistic context-free grammar)。如下圖所示,除了常規的語法規則以外,我們還對每一條規則賦予了乙個概率。對於每一棵生成的語法樹,我們將其中所以規則的概率的乘積作為語法樹的出現概率。

當我們或得多顆語法樹時,我們可以分別計算每顆語法樹的概率p(t),出現概率最大的那顆語法樹就是我們希望得到的結果,即arg max p(t)。

但是該模型存在一些假設條件:

語義歧義性

回指歧義性(anaphoric ambiguity)

回指歧義性是指之前提到的短語或單詞在後面句子中有不同的含義。比如說在英劇中有很多像諷刺,黑色幽默的例子,這裡不做詳述。

自然語言生成是研究使計算機具有人一樣的表達和寫作的功能。即能夠根據一些關鍵資訊及其在機器內部的表達形式,經過乙個規劃過程,來自動生成一段高質量的自然語言文字。

自然語言生成可被分為三個階段:

1、文字規劃

2、語句規劃

3、實現

其中,文字規劃決定文字要說什麼(what);句法實現決定怎麼說(how);句子規劃則負責讓句子更加連貫。

自然語言生成方法

雖然nlg已應用於許多實踐當中,但目前對nlg的研究進展遠不如nlu。所以,在nlg技術發展的歷史過程中,主要包括基於模板的nlg和基於深度學習的nlg方法。

1、基於模板的nlg

nlg模板由句子模板和詞彙模板組成。句子模板包括若干個含有變數的句子,詞彙模板則是句子模板中變數對應的所有可能的值。為方便理解,下面引用文獻中的乙個例子:

topic->weather

act->query

content: weather_state

->3 對不起,請您需要{}的。

->2 請您需要的[|具體內容]。

->1 抱歉,請您需要{}的。

符號說明:

|:或者

:內部元素出現次數》=1

{}:內部元素出現次數<=1

():對話管理模組中的變數

<>:自定義語料中的變數

句子前的數字:該句子的權重,權重越大句子出現的可能性越大。

詢問天氣場景中的句子模板

-> [告訴我|補充|說明|輸入]

-> [查詢|知道|獲取|收到|了解|諮詢]

-> [**|何處|什麼位置|什麼地方|什麼城市|哪個位置|哪個區域]

-> [天氣|哪方面資訊|什麼資訊|哪方面情況|哪方面內容|何種內容]

-> [哪天|什麼時間|哪個時辰|什麼時候]

實際工作中,基於模板的nlg技術在專案初期使用較多,由於其可控性,對於語言較為嚴謹的很多領域中使用極為普遍。

2、基於深度學習的nlg

伴隨深度學習的熱潮,以及機器翻譯相關研究的快速發展,基於深度學習的nlg技術也有了較為突出的進展。尤其是encoder-decoder框架的流行,使得該框架下的seq2seq技術也得到了快速發展.

了解了上一部分的nlg體系結構,下面對nlg相關任務進行**。通常,通過將輸入資料分解成若干個子問題來解決將輸入資料轉換成輸出文字的nlg問題。通過對多數nlg系統總結,我們可以大致把nlg的任務分為:

(1)確定內容

確定內容即決定即將構建的文字中應該包含哪些資訊;作為生成過程的第一步,nlg系統需要決定哪些資訊應該包含在正在構建的文字中,哪些不應該包含在其中。該部分最大的進步應該算是對齊機制的提出,解決了如何自動學習資料和文字之間的對齊關係的問題。

(2)文字結構

確定文字中呈現資訊的順序;在確定了要傳遞什麼訊息之後,nlg系統需要決定它們向讀者呈現的順序。

(3)句子聚合

決定在單個句子中呈現哪些資訊;並非文字計畫中的每一資訊都需要用乙個單獨的句子來表達;通過將多條訊息組合成乙個句子,使得生成的文字變得更流暢、更具可讀性。儘管也有一些情況認為應避免聚合,總的來說,聚合很難定義,也很難實現,我們可以用各種方式解釋,比如從冗餘消除到語言結構組合。這裡對上述語言進行「聚合」一下,就是如何用言簡意賅的話語準確表達想要表達的語言資訊。

(4)詞彙化

找到正確單詞或短語來表達資訊;即用什麼詞或短語來表達訊息的構建塊。通常情況下,上下文約束在這裡也扮演著重要的角色,所以這一點在中文nlg任務中尤為突出。

(5)引用表示式生成

選擇單詞和短語以標識域物件;這種特徵表明與詞彙化有著密切的相似性,但本質上的區別在於,引用表示式生成是一項「識別任務,系統需要傳遞足夠的資訊來區分乙個域實體和其他域實體」。這乙個task好抽象,白話解釋一下,詞彙化階段主要是選用合適的詞或短語表達上下文相關的語義資訊,而引用表示式生成階段的任務首先是識別要表達的物件,然後用合適的詞或短語表示它。

(6)語言實現

將所有單詞和短語組合成格式良好的句子。這項任務涉及到對句子的成分進行排序,以及生成正確的形態形式,通常還需要插入功能詞(如助動詞和介詞)和標點符號等。

1、機器翻譯

機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的乙個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。

2、打擊垃圾郵件

自然語言處理通過分析郵件中的文字內容,能夠相對準確地判斷郵件是否為垃圾郵件。目前,貝葉斯(bayesian)垃圾郵件過濾是備受關注的技術之一,它通過學習大量的垃圾郵件和非垃圾郵件,收集郵件中的特徵詞生成垃圾詞庫和非垃圾詞庫,然後根據這些詞庫的統計頻數計算郵件屬於垃圾郵件的概率,以此來進行判定。

3、資訊提取

從文字中獲取資訊意義的方法。資訊提取目前已經應用於很多領域,比如商業智慧型,簡歷收穫,**分析,情感檢測,專利檢索及電子郵件掃瞄。當前研究的乙個特別重要的領域是提取出電子科學文獻的結構化資料,特別是在生物和醫學領域。

4、文字情感分析

5、自動問答

自動問答是指利用計算機自動回答使用者所提出的問題以滿足使用者知識需求的任務,在回答使用者問題時,首先要正確理解使用者所提出的問題,抽取其中關鍵的資訊,在已有的語料庫或者知識庫中進行檢索、匹配,將獲取的答案反饋給使用者。

6、個性化推薦

自然語言處理可以依據大資料和歷史行為記錄,學習出使用者的興趣愛好,**出使用者對給定物品的評分或偏好,實現對使用者意圖的精準理解,同時對語言進行匹配計算,實現精準匹配。

機器學習第一次作業

對話式人工智慧平台是指融合語音識別 語義理解 自然語言處理 語音合成等多種解決方案,為開發者提供具備識別 理解及反饋能力的開放式平台的技術。該技術能夠實現機器與人在對話服務場景中的自然互動,未來有望在智慧型可穿戴裝置 智慧型家居 智慧型車載等多個領域得到大規模應用。智慧型腦機互動是指通過在人腦神經與...

機器學習第一次作業

深度學習的背景是機器學習,機器學習 machine learning 是一門專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能的學科。機器能否像人類一樣能具有學習能力呢?1959年美國的塞繆爾 samuel 設計了乙個下棋程式,這個程式具有...

機器學習第一次作業

經過這乙個月的課程學習,算是對機器學習和模式識別這方面有了一定認識,畢竟以前也只是聽說過,沒有特地的進行了解。課程不知不覺已經過半了,但是相對已經學習的課程來說我掌握的東西並不是很多 學習果然還是在學校效率比較高 這門課程涉及的數學知識很多,對於我這種線性代數知識已經忘的差不多的來說,很多公式推導起...