自然語言處理包含4個部分:
1 語言識別,語音合成;
2 自然語言理解,對話理解,知識獲取和問答,任務理解;
3 底層的機器學習(tennsorflow和other)
4 個性化資訊的獲取和利用;
其中兩個重要的競品分析:
google的產品:各種語言場景;
alexa亞馬遜產品:基於雲計算的對話機械人產品,nlp定製化場景;
google nlp開源專案:
bert:bidirectional encoder representations from transformers 預訓練語言表示的方法;
可以在大型文字語料庫(如維基百科)上訓練通用的「語言理解」模型,然後將該模型用於下游nlp任務,比如機器翻譯、問答。
第乙個無監督的用於預訓練nlp的深度雙向系統。
無監督意味著bert僅使用文字語料庫進行訓練,也就是說網路上有大量多種語言文字資料可供使用。
nlp中的3個關鍵概念:
1 文字嵌入(字串的向量表示);
2 機器翻譯(使用神經網路翻譯語言);
3 以及dialogue和conversations(可以實時與人進行對話的技術);
還涉及到的技術:
技術1:情緒分析
情緒分析是通過較小元素的語義組成來解釋較大文字單元(實體、描述性術語、事實、論據、故事)的含義的過程;
用於情感分析的現代深度學習方法可用於形態學、語法和邏輯語義,其中最有效的是遞迴神經網路。
迄今為止用於情感分析的最強大的rnn模型是遞迴神經張量網路,其在每個節點處具有神經網路的樹結構。
該體系結構具有以下元件:
語義記憶體模組(類似於知識庫)被用來建立從輸入句子的嵌入字序列預先訓練手套載體;
輸入模組處理與問題有關的輸入向量稱為事實;
問題模組逐字處理疑問詞,並且使用輸出相同權重的gru輸入模組的向量;
情景記憶模組接收從輸入中提取和編碼的嵌入事實和問題載體;
答案生成模組,通過適當的響應,情景記憶應該包含回答問題所需的所有資訊;
dmn不僅在質量保證方面做得非常好,而且在情感分析和詞性標註方面也優於其他架構。
技術3:文字摘要 人類很難手動彙總大型文字文件;
文字摘要是nlp為源文件建立簡短、準確和流暢的摘要問題;
隨著推送通知和文章摘要獲得越來越多的注意力,為長文字生成智慧型且準確摘要的任務每天都在增長;
技術4:注意力機制 神經網路中的注意力機制是基於人類的視覺注意機制;
研究人員不得不處理各種障礙:演算法的侷限性、模型的可擴充套件性、對人類語言的模糊理解;
好訊息是,大量的開源存在;
nlp中已經解決的主要障礙:
沒有單一的模型架構,跨任務具有一致的最新結果;
機器學習中一種強大的方法是多工學習,它共享相關任務之間的表示,以使模型能夠更好地概括原始任務;
另乙個挑戰是重複字表示的問題,其中模型中編碼器和解碼器的不同編碼導致重複的引數/含義;
另乙個障礙是,與諸如卷積神經網路或前饋神經網路相比,任何deep nlp技術的基本構建塊recurrent neural networks相當慢;
準遞迴神經網路採用rnn和cnn的最佳部分來提高訓練速度,使用卷積跨越時間的並行性和跨越通道的並行性的元素級門控遞迴;
在nlp中,架構搜尋使用機器學習自動化人工神經網路設計的過程 非常緩慢,使用google brain進行強化學習的神經架構搜尋是迄今為止開發的最可行的解決方案;
對話系統-場景:
task-bot任務型對話系統建立;
ir-bot:檢索型對話系統;
chitchat-bot:閒聊系統;
nlu中設計概念:
域確認;使用者意圖甄別;填充槽點;
第乙個是語法分析,可以通過語法規則去分析一句話,得到這句活是疑問句還是肯定句,繼而分析出使用者意圖。
第二種方法是生成模式,主要兩個代表性的hmm,crf, 這樣就需要標註資料。
第三種方法是分類思想,先對一句話提取特徵,再根據有多少個槽值或意圖訓練多少個分類器,輸入一句話分別給不同的分類器,最終得到包含槽值的概率有多大,最終得到這個槽值。
還有一種採用深度學習方式,使用lstm+crf兩種組合的方式進行實體識別,現在也是首選的方法 ,
一般輕量型的對話系統還是通過語法分析或分類方式或序列標註來做。
自然語言生成也有多種方法。這裡舉三個方法:基於模板,基於語法規則和基於生成模型方法;
dm涉及的概念:
對話狀態追蹤dst;
對話策略;
意圖識別的準確度跟兩方面有關:
1 關鍵字在當前意圖**現的頻率;
2 關鍵字在整個檔案**現的頻率;
自然語言理解後,需要有狀態追蹤,策略優化等對話管理模組;
一般用傳統的三元組方式即:action, slot , value。action就是意圖,slot是需要填充的槽值,value是對應的值;
語音識別:孤立詞語音識別,連續詞語音識別,大詞連續語音識別;
語音合成:語言處理,聲學處理,韻律處理,情感處理;
語義理解:中文分詞,序列標註,實體識別,意圖識別;
語言生成:預定義模板,問答語料庫,知識圖譜,深度學習;
對話狀態模型:對話表示模型,對話推理模型,對話學習模型;
對話策略模型:通用對話策略,領域對話策略;
語料庫資源:預製模板,問答語料,知識圖譜,生成模型,百科問答,搜尋引擎;
人工智慧 深度學習與自然語言處理
如何自動處理自然語言輸入 並產生語言輸出,是人工智慧的重要研究方向。這門課主要講授近2 3年深度學習在自然語言處理方面的最新發展。課程從相關機器學習模型的數學原理和最優演算法講起,將會講到神經網路在nlp中的一系列應用,包括潛在語義分析 語音到文字的轉錄 語言翻譯以及問答,同時也會講到這些模型在cp...
人工智慧 之 自然語言處理(NLP)演算法分類總結
二 詳細演算法 三 建模方面 人工智慧演算法大體上來說可以分類兩類 基於統計的機器學習演算法 machine learning 和深度學習演算法 deep learning 總的來說,在sklearn中機器學習演算法大概的分類如下 1 回歸演算法 2 分類演算法 3 聚類演算法 4 降維演算法 5 ...
人工智慧自然語言處理技術處理專業領域的運用
自然語言處理 nlp 是現代電腦科學和人工智慧領域的乙個重要分支,是一門融合了語言學 數學 電腦科學的科學。這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯絡,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通訊的計算機系統,...