cs224n 第一課 自然語言處理與深度學習

2021-08-21 17:02:01 字數 2549 閱讀 5512

好了,開始上車了!

自然語言處理是一門涉及到電腦科學、人工智慧和語言學的交叉學科,它的目標是處理或者理解自然語言並且能幫助我們做一些有用的事情,比如說幫你買東西(以後會不會只需要對著手機說一句需要買啥,就自動幫你挑好下單?),和你聊天、qa系統(siri,cortana 這些之類的)。但是完全通過機器去理解人類語言的含義目前來說是一件非常困難的事情

目前在nlp上主要做的包括下面圖中的幾塊:一般輸入的**主要是語音和文字兩塊,對於語音輸入,開始需要做一些語音解釋和音位分析。對於文字類的話比如ocr,需要做一些文字識別的操作。這門課主要關注圈住的那三個,下面的 句法分析(syntactic analysis)和語義理解(semantic interpretation)是重點,上面那個語音頻號分析會簡單介紹一下

自然語言處理方面的一些應用

從網頁上抽取一些比如說商品**,任務,或者公司名稱的一些資訊

分類,機器翻譯之類的

目前在工業上已經應用起來的一些東西

人類語言有啥特點了?

我們的語言小孩子都學習的特別快,而且表達的意思通常會結合著表情和手勢。使用的語言是一種符號級的(symbolic)訊號系統,但是大腦貌似是通過一種連續啟用的模式進行編碼的,而且這些符號是通過連續的聲音或視覺型號傳遞的,大量的語法以及單詞符號級別的編碼造成了機器學習中稀疏的問題

深度學習是機器學習的一門子領域,大多數機器學習的問題如果想要達到乙個比較好的效果,大多數需要花費比較多精力去設計一些特徵,機器學習通過不斷優化模型的權重來使最終的**效果達到最好。

機器學習的一般處理方法

需要花費比較大的工作量去做特徵工程的操作

深度學習中的處理方法

深度學習會自動去學習一些好的表徵形式,不需要做大量的特徵工程操作,演算法會學習出多級別的一些表徵形式(不同網路層)和乙個輸出結果,輸入是一些比較」生」的資料形式(聲音、資料和單詞)

為什麼要使用深度學習?

人工設計的特徵經常被過度加工(以人理解的方式),不夠全面以及需要花費比較多的時間去驗證。通過演算法自己學習特徵對模型來說適應性更強並且不需要花費太多的時間 。深度學習中有一些比較靈活的框架能用來表徵詞彙和語言資訊,同時能學習監督學習問題和無監督學習問題。網際網路時代,隨著大量的資料的產生,cpu/gpu效能的快速提公升,是深度學習得到了快速的發展。

深度學習真正意義上的第乙個重大突破是在語音識別上,之前通過利用高斯混合模型進行聲學分析,隱馬爾科夫模型等都沒有得到太大的提公升,但是當換到深度學習模型進行語音識別時,文字識別錯誤率一下子大幅下降了,大約可以減少30%的字錯誤率

深度學習第二個比較大的突破是在計算機視覺方面,深度學習在imagenet計算機視覺競賽中具有出色的表現

通過這次課,我們能夠理解並且有能力運用有效的現代方法進行深度學習 ,包括一些基礎知識,nlp中使用的主要方法:rnn 、attention等,以及目前人們理解和產生語言中所遇到的困難;具有為重要nlp問題構建系統架構的能力。學完一系列課程後,再回過頭來看看下這些是不是都會了?

首先自然語言不像程式語言或者其他公式化的語言一樣,它通常是模凌兩可的;其人類語言作為一種高效的交流方式,有時候會省略一些東西,它通常依賴與具體的場景、語氣以及上下文的知識。

通過使用表徵學習和深度學習的方式來達到自然語言處理的目標 ,一方面,深度學習被應用到各種不同層次的語言學上:如詞彙學,句法學,語義學;應用於各種不同型別的工具和演算法,例如為單詞標註詞性,識別人物姓名和機構名稱,找出句子的語法結構。此外,它還被運用在語言應用程式上,比如機器翻譯,情感分析,聊天助手,qa等

深度學習和語言都是以詞義為起點,我們要乙個具體的詞用乙個數字向量來表示,當我們有了單詞的表示,我們將單詞放在了高維向量空間中,這些空間就稱為了非常棒的語義空間

nlp 級別的表徵: 語義學

nlp 方面的一些應用: 情感分析

問答系統

聊天助手

它是迴圈神經網路rnn的乙個應用:

機器翻譯

傳統的機器翻譯是乙個很繁雜的系統,運用rnn,句子被對映成向量,輸出是句子的生成:

所有神奇的事情背後運用的都是向量,我們用這個來標識所有的語言形式,無論是聲音,詞的部分、單詞、句子還是對話,他們都變成了含有真實值的向量,後續會具體學習如何將這些轉化成向量

CS224n學習筆記1 深度自然語言處理

一 什麼是自然語言處理呢?自然語言處理是計算機科學家提出的名字,本質上與計算機語言學是同義的,它跨越了計算機學 語言學以及人工智慧學科。自然語言處理是人工智慧的乙個分支,在計算機研究領域中,也有其他的分支,例如計算機視覺 機械人技術 知識表達和推理等。目標 讓計算機能夠理解人類語言來完成有意義的任務...

cs224n自然語言處理與深度學習筆記 week1

本節主要針對史丹福大學cs224n的自然語言處理與深度學習課程所做筆記,將學習過程中的一些重難點進行記錄,方便後續複習 自然語言處理是電腦科學,人工智慧和語言學的集合,該技術的目的是為了使計算機能夠理解語言.深度學習是機器學習的乙個分之,和傳統方法的區別主要在於其端到端的形式,從raw input中...

C語言第一課

一 c基礎 進製的轉換 進製,進製機制 常見的有二進位制 八進位制 十進位制 十六進製制 例 二進位制 0101010 八進位制 0235 十進位制 9 十六進製制 0x8a 注 十六進製制後面的10 16由a,b,c,d,e,f代替 進製的區分 八進位制前面會加 0 十六進製制後面會加 0x 進製...