NLP系統體系結構及主要流程

2021-09-11 12:19:13 字數 1161 閱讀 5898

本文主要梳理下nlp系統的體系結構及流程。

此圖來自【立委科普:自然語言系統架構簡說】

前面幾個主要屬於nlp的淺層分析任務,即序列標註任務。

中文不像英文那樣有空格來分詞,因此在分析文字之前就必須將一連串的漢字分解成合適的詞語。

分詞(從句到詞)技術這塊主要

基於詞典的分詞方法(最大匹配法、最短路徑法、最大概率法),實際用的比較多的如下:

合詞(從字到詞)主要用到基於字序列標註的方法。

詞性,也稱為詞類,是詞彙的語法屬性,是連線詞彙到句法的橋梁。 詞性標註(part-of-speech tagging或pos tagging),又稱為詞類標註,是指判斷出在乙個句子中每個詞所扮演的語法角色。

這塊的技術大多數使用hmm(隱馬爾科夫模型)+ viterbi演算法,最大熵演算法(maximum entropy)。目前流行的中文詞性標籤有兩大類:北大詞性標註集和賓州詞性標註集。

現代漢語的詞可以分為兩類12種詞性:一類是實詞:名詞、動詞、形容詞、數詞、量詞和代詞;另一類是虛詞:副詞、介詞、連詞、助詞、嘆詞和擬聲詞。

將標註好詞性的句子按句法結構把某些詞聚合在一起形成比如主語、謂語、賓語等等;

語義組塊最常用的方法是條件隨機場(conditional random fields,crf)

命名實體識別用於識別文字中具有特定意義的實體,常見的實體主要包括人名、地名、機構名及其他專有名詞等。命名實體識別任務還要識別出文字中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。

這塊使用到的技術就是標準的hmm模型和viterbi演算法。

句法分析是根據給定的語法體系自動推導出句子的語法結構,分析句子所包含的語法單元和這些語法單元之間的關係,將句子轉化為一棵結構化的語法樹。

目前句法分析主要的理論如下:

本文主要解析了下nlp系統的體系結構及主要流程,方便後續有的放矢地深入學習。

IIS體系結構及配置系統

1.2 服務 1.2.2 windows程序啟用服務 was 二 iis中的請求處理 三 配置系統 核心模式請求排隊 請求預處理和安全過濾 這兩個服務在同一svchost.exe程序中作為localsystem執行,並共享相同的二進位制檔案 1.2.1.1 作為http.sys的偵聽器介面卡 1.2...

Powercenter體系結構和主要元件介紹

服務端元件 客戶端元件 當伺服器安裝配置完成後,開發乙個etl程式的大概流程為 1.在repository manager中建立和server repository的連線,並建立folder,設定正確的許可權。2.使用powercenter designer在source analyzer檢視建立源...

Powercenter體系結構和主要元件介紹

服務端元件 客戶端元件 當伺服器安裝配置完成後,開發乙個etl程式的大概流程為 1.在repository manager中建立和server repository的連線,並建立folder,設定正確的許可權。2.使用powercenter designer在source analyzer檢視建立源...