自然語言處理基本概念

2021-07-29 17:28:15 字數 756 閱讀 3277

本文為 筆記

自然語言處理常用術語

文字主要分為三種文字,自由文字、結構化文字、半結構化文字,自然語言處理一般是對自由文字進行的處理。常見的基本操作如下:

分詞通常我們處理的自由文字分為中文、英文等。詞為文字最基本的單位,分詞是進行自然語言處理中最基本的步驟。分詞演算法分為詞典方法和統計方法。其中,基於詞典和人工規則的方法是按照一定的策略將待分析詞與詞典中的詞條進行匹配(正向匹配、逆向匹配、最大匹配)。統計方法是基本字串在語料庫中出現的統計頻率,典型的演算法有hmm\crf等。其中crf相比hmm有更弱的上下文無相關性假設,理論上效果更好一點。

詞性標註

句法分析

句法分析的目的是確定句子的句法結構,主謂賓、動賓、定中、動補等。在問答系統和資訊檢索領域有重要的作用。

命名實體識別

命名實體識別是定位句子中出現的人名、地名、機構名、專有名詞等。命名實體屬於標註問題,因此可以採用hmm\crf等進行模型的訓練。基於統計的命名實體識別需要基於分詞、詞性標註等技術。命名實體定義了五大類型別:設施(fac)\地理政治實體(gpe)\位置(loc)\人物(per)。在實際應用中,可以根據自己的業務需求,定義實體類別,並進行模型訓練。

實體關係抽取

實體關係抽取是自動識別非結構化文件中兩個實體之間的關聯關係,屬於資訊抽取領域的基礎知識之一。近年來,搜尋領域流行的知識圖譜技術是構建實體關係。實體關係抽取有多種方式,包括規則匹配、有監督學習、無監督學習。其中有監督學習需要預先定義實體關係類別,並通常將問題建模為分類問題。有監督學習需要預先人工標註語料庫。

AI學習筆記(十五)自然語言處理基本概念

目錄 ai學習筆記之自然語言處理 自然語言處理 natural language processing 自然語言簡介 自然語言處理的難點 自然語言處理的現狀 基於深度學習的自然語言處理 nlp的處理過程 獲取預料 語料預處理 特徵工程 模型訓練 nlp研究任務 單詞的邊界界定 在口語中,詞與詞之間通...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...