一、提出問題
二、基本概念
1、語言學與語音學
語言的兩個基本屬性:語音、文字
2、語言學:研究語言的學科,包含語言的本質、結構、發展規律
3、語音學:研究發音特點
4、計算機語言學:計算技術和概念、語言學和語音學問題
5、自然語言處理 or 自然語言理解
關於「理解」的標準:計算機智慧型——表現、反映、人機互動——圖靈
測試三、自然語言處理研究的內容和面對的困難
(一)研究內容
機器翻譯
自動文摘
資訊檢索
文件分類
問答系統
資訊過濾
資訊抽取
文字編輯和自動校對
光讀字元識別ocr
語音識別
文字挖掘
語音識別
語音合成
輿情分析
等等…
(二)自然語言涉及的幾個層次
1、形態學
2、語法學:語法規律、句子結構
3、語義學(根本問題):詞的含義——句的含義——段落篇章的含義
4、語用學:特定環境的文字用法
(三)面臨的困難
1、歧義:語義歧義、結構歧義
eg:put the block[ in the box on the table].
put [the block in the box] on the table.
2、未知的語言
四、自然語言處理的基本方法及其發展
(一)基本方法
理性主義
經驗主義
知識**
與生俱來
大量的語言資料
研究物件
語言知識結構、符號、規則
語言資料
理論chomsky的語言原則
shannon的資訊理論
應用形式語言
統計模型
(二)發展和現狀
1、萌芽期(2023年)——發展期(2023年)——繁榮期(20世紀80年代末)
2、目前已經取得了一定的研究成果,但是根本問題還未解決。
3、新的研究方向不斷湧現,具有極大發展前景。
統計自然語言處理 自然語言處理是什麼?
自然語言是指中文 英語 西班牙語 法語 德語等等語言,作為人們日常使用的其他語言,它們對人類的交流有著重要作用。自然語言是隨著人類社會的發展而自然產生的語言,而不是由人類所特意創造的語言。自然語言是人們日常學習生活的重要工具和媒介,如果人類失去交流的能力,文明就失去了意義。總的來說,自然語言就是指人...
統計自然語言處理基礎學習筆記(1)
識別文字中的搭配 識別搭配有很多方法,書中介紹了基於頻率的搭配識別,基於含義和主詞搭配之間距離的識別,基於假設測試和互資訊的識別。1.基於頻率的識別 如果兩個詞在一起出現了很多次,那麼就是乙個證據說明它們有特殊的功能,可以預計到的是僅僅找到最頻繁出現的二元組結果並不理想,會出現很多由2個功能詞組合的...
統計自然語言處理(詞法)
語法可分為詞法和句法 詞法 句法 現代漢語句法的主要內容包括,句子的基本結構 句子的類別 句子的表達形式三個方面。句子的基本結構也叫基本成分,包括主語 謂語 賓語 定語 狀語 補語六種成分。其中的主語 謂語 賓語是主要成分,定語 狀語 補語是附加修飾成分。而主語和謂語是句子的必要成分,缺一則不能成為...