nlp的發展
nlp相關知識的構成
語料庫nlp的幾個層面
nlp與ai
定義:nlp(natural language processing,自然語言處理)是電腦科學領域以及人工智慧領域的乙個重要研究方向,研究用計算機來處理、理解以及運用人類語言(如中文、英文等)。
目的:人與計算機之間可以進行有效通訊。
主要工作:自然語言處理研究表示語言能力,語言應用的模型,通過建立計算機框架來實現這樣的語言模型,並不斷完善這樣的語言模型,並根據語言模型來設計各種實用的系統。
萌芽期:2023年以前
2023年馬爾科夫提出馬爾可夫隨機過程與馬爾可夫模型的基礎就是「手工查頻」,萌芽期極具鮮明的經驗主義色彩。
快速發展期:1980~2023年
2023年喬姆斯基借鑑夏農的工作,把有限狀態機作為刻畫語法的工具,建立了自然語言的有限狀態模型,具體來說就是用「代數」和「集合」將語言轉化為符號串行,建立多種有關語法的數學模型。但是這個時期自然語言處理領域的主流仍然是基於規則的理性主義方法。
突飛猛進期:2023年至今
20世紀80年代初,話語分析取得重大進展,有限狀態模型和經驗主義研究方法開始復甦。
90年代後,基於統計的自然語言處理開始大放異彩。
分詞分詞常用的手段是基於字典的最長串匹配,據說可以解決85%的問題,但是歧義分詞很難。
詞性標註
標註詞性的目的是表徵詞的一種隱藏狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。
命名實體識別
命名實體識別是指從文字中識別具有特定類別的實體,例如人名,地名,機構名等。
句法分析
往往是一種基於規則的專家系統。
指代消解
用來表徵前文出現過的人名,地名等。
情感識別
本質上是分類問題,經常被應用在輿情分析等領域。
糾錯搜尋技術,輸入法等
問答系統
類似於機械人的智慧型問答,目前比較成熟的有:蘋果siri、ibm watson、微軟小冰等。
句法語義分析
文字挖掘
機器翻譯
資訊檢索
問答系統
對話系統
(1)第一層面:詞法分析
(2)第二層面:句法分析
(3)第三層面:語義分析
nlp是計算機領域與人工智慧領域中的乙個重要分支。自然語言處理這門學科是融合了電腦科學,語言學,人工智慧的交叉學科。
人工智慧(artificial intelligence,ai)在2023年達特茅斯特會議上被提出,而後人工智慧先後經歷了三次浪潮,20世紀70年代第一次ai浪潮泡沫破滅後,ai概念轉而沉寂期,機器學習,資料探勘,自然語言處理等方向開始被研究。2023年第二次ai時代,同期日本欲打造「第五代計算機」,當時日本宣稱第五代計算機的能力就是能夠自主學習,後來第五代計算機研製失敗,ai再次沉寂。2023年左右,由於網際網路資料大幅增加,算力隨之大幅提公升,深度學習實現端到端訓練,深度學習引領帶三次ai時代。人們也逐漸開始將深度學習方法引入nlp領域,在機器翻譯,問答系統與自動摘要等方向取得突破。 自然語言處理基礎學習
自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期,計算機語言蓬勃發展,形式語言理論趨向成熟,這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性,以及自然語言的上下文有關性,導致不能得到廣泛的運用。擴種轉移網路atn是一種多功能自然語言的語法表...
自然語言處理基本概念
本文為 筆記 自然語言處理常用術語 文字主要分為三種文字,自由文字 結構化文字 半結構化文字,自然語言處理一般是對自由文字進行的處理。常見的基本操作如下 分詞通常我們處理的自由文字分為中文 英文等。詞為文字最基本的單位,分詞是進行自然語言處理中最基本的步驟。分詞演算法分為詞典方法和統計方法。其中,基...
自然語言處理
自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...