自然語言處理深度學習的7個應用

2021-08-19 13:06:28 字數 2686 閱讀 2560

翻譯:無阻我飛揚

自然語言處理領域正在從統計方法轉變為神經網路方法。

自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,乙個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。

在這篇文章中,你會發現7個有趣的自然語言處理任務,也會了解深度學習方法取得的一些進展。

1、 文字分類

2、 語言建模

3、 語音識別

4、 字幕生成

5、 機器翻譯

6、 文件摘要

7、 問答(q&a)

我試圖專注於你可能感興趣的各種型別的終端使用者問題,而不是更多的學術或語言的子問題,在有些方面深度學習已經做的很好,如詞性標註,程式分塊,命名實體識別,等等。

每個示例提供了乙個問題描述,示例,對演示方法和結果的文件引用。大多數參考來自2023年的goldberg』s 的優秀的nlp研究人員深度學習入門文獻 。

1、 文字分類

給出乙個文字例項,**乙個預定義的類標籤。

文字分類的目的是對文件的標題或主題進行分類。

—575頁,自然語言處理的基礎統計,1999

乙個流行的分類示例是情感分析,類標籤代表源文字的情感基調,比如「積極的」或「消極的」。

下面是另外三個例子:

此外,這個問題可以用某種方式加以解決,將多個類分配給乙個文字,即所謂的多標籤分類。如給乙個源tweet**多個#標籤。

下面是3個文字分類深度學習的**例子:

有效使用詞序進行基於卷積神經網路的文字分類,2015

基於卷積神經網路的句子分類,2014

2、 語言建模

語言建模真的是更有趣的自然語言問題的乙個子任務,特別是那些在其它輸入條件下的語言模型。

…問題是根據給出的前乙個詞來**下乙個詞。這項任務是語音或光學字元識別的基礎,也用於拼寫矯正,手寫識別和統計機器翻譯。

—191頁,統計自然語言處理基礎,1999.

除了對語言建模的學術興趣外,它也是許多自然語言處理體系結構深度學習的乙個重要組成部分。

乙個語言模型學習詞與詞之間的概率關係,這樣以來,新的詞的序列可以生成與源文字統計學上一致的文字內容。

單獨地,語言模型可用於文字或語音生成;例如:

下面是深度學習語言建模(僅有)的乙個例子:

3、 語音識別

語音識別是理解說了什麼的問題。

…語音識別的任務是將包含自然語言話語的語音對映成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並借助乙個分類模型實現語音到字母的轉譯。)

—458頁,深度學習,2016.

給定作為音訊資料的文字的發聲,該模型必須生成可讀的文字。

自動給出自然語言的處理,這個問題也可被稱為自動語音識別(asr).

語言模型用於建立以音訊資料為條件的文字輸出。

包含的一些例子:

以下是用於語音識別深度學習的3個例子:

4、字幕生成

字幕生成是描述影象內容的問題。

給定乙個數字影象,如一張,生成關於這個影象內容的文字描述。

語言模型用於建立符合影象內容的字幕。

包含的一些例子:

以下是字幕生成深度學習的3個例子:

5、機器翻譯

機器翻譯是把源文字從一種語言轉換成另外一種語言的問題。

…機器翻譯,文字或語音從一種語言到另外一種語言的自動翻譯,它是nlp最重要的應用。

—463頁,統計自然語言處理基礎,1999.

考慮到深度神經網路的使用,該領域被稱為神經機器翻譯。

在乙個機器翻譯任務中,輸入由一些語言中的一系列符號組成,電腦程式必須把它轉換成另一種語言中的符號串行。這通常用於自然語言,比如從英語到法語的翻譯。深度學習最近開始對這種任務產生重要影響。

—98頁,深度學習,2016.

語言模型用於輸出翻譯以後語言的目標文字,以源文字為基礎。

包含的一些例子:

下面是機器翻譯深度學習的3個例子:

6、文件摘要

文件摘要是對建立的文字文件進行簡短描述的任務。

如上所述,語言模型用於基於完整文件的摘要輸出。

一些文件摘要的例子:

下面是文件摘要深度學習的3個例子:

7、 問答

回答問題就是給定乙個主題,如文字檔案,回答關於這個主題的乙個特定問題。

…問答系統嘗試回答使用者以問題形式表述的疑問,它返回適當的短語,如位置,人員,或者日期。例如,問題是**甘迺迪為什麼被刺殺?可能回答的短語是:oswald(「**」奧司華德)。

—377頁,統計自然語言處理基礎,1999

包含的一些例子:

下面是問答深度學習的3個例子:

擴充套件閱讀

如果你需要更深入的了解,本節提供更多用於nlp深度學習應用程式的資源。

2023年10月14日,sdcc 2017之大資料技術實戰線上峰會即將召開,邀請圈內頂尖的布道師、技術專家和技術引領者,共話大資料平台構建、優化提公升大資料平台的各項效能、spark部署實踐、企業流平台實踐、以及實現應用大資料支援業務創新發展等核心話題,七位大牛與你相聚狂歡,詳情檢視所有嘉賓和議題,以及註冊參會。

自然語言處理深度學習的7個應用

自然語言處理領域正在從統計方法轉變為神經網路方法。自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的 事實上,乙個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的...

基於深度學習的自然語言處理

cbow表示可以通過求單詞表示向量和或者通過將乙個單詞詞袋向量乘 以乙個每一行對應於乙個稠密單詞表示的矩陣 這樣的矩陣也叫作嵌入矩陣 embedd i ng matricy 來得到。網路中每行神經元的值可以看作是乙個向量 全連線層可以看作是從四維到六維 的線性變換。全連線層實現了乙個向量與矩陣的乘法...

機器學習 深度學習 自然語言處理

文字挖掘 文字分類 機器翻譯 客服系統 複雜對話系統 手工特徵耗時耗力,還不易拓展 自動特徵學習快,方便擴充套件 深度學習提供了一種通用的學習框架,可以用來表示世界,視覺和語言學資訊 深度學習可以無監督學習,也可以監督學習 我 今天 下午 打籃球 p s p w1,w2,w3,w4,w5,wn p ...