1.詞法分析
詞是自然語言中能夠獨立運用的最小單位,是自然語言處理的基本單位。詞法分析就是利用計算機對自然語言的形態 (morphology) 進行分析,判斷詞的結構和類別等。
詞法分析的主要任務是:①:能正確的把一串連續的字元切分成乙個乙個的詞 ②:能正確地判斷每個詞的詞性,以便於後續的句法分析的實現。
常見的中文分詞演算法:(分為三類,1.基於字串匹配(機械分詞)的分詞方法、2.基於理解的分詞方法、3.基於統計的分詞方法)
最大匹配法(正向、逆向) 1基於字串匹配
基於詞典的中文分詞 1基於字串匹配
基於標記法
約束矩陣法
句模切分法
神經網路分析演算法 2.基於理解
基於統計語言模型(共現率) 3.基於統計
專家系統分詞演算法
常見分詞專案:
word分詞
fudannlp
paoding
mmseg4j
jcseg
ictclas
智呈分詞
mfsou分詞
scws
jieba
2.句法分析(語法分析)
運用自然語言的句法和其他知識來確定組成輸入句各成分功能。對句子中的詞語語法功能進行分析。(每個詞充當的角色,主語、謂語等)。
句法分析的基本任務是:確定句子的語法結構或句子中詞彙之間的依存關係。
句法分析分為:句法結構分析和依存關係分析兩種。
採用語法樹來表示
3.語義分析
4.語用分析
5.常見的術語:
未登入詞:命名實體(人名、地名)、新詞,專業術語稱為未登入詞。也就是那些在分詞詞典中沒有收錄,但又確實能稱為詞的那些詞。
編譯原理之詞法分析 語法分析 語義分析
詞法分析 lexical analysis或scanning 和詞法分析程式 lexical analyzer或scanner 詞法分析階段是編譯過程的第乙個階段。這個階段的任務是從左到右乙個字元乙個字元地讀入源程式,即對構成源程式的字元流進行掃瞄然後根據構詞規則識別單詞 也稱單詞符號或符號 詞法分...
Python的詞法分析與語法分析
詞法分析 lexical analysis 分析由字元組成的單詞是否合法,如果沒有問題的話,則產生乙個單詞流。語法分析 syntactic analysis 分析由單詞組成的句子是否合法,如果沒有問題的話,則產生乙個語法樹。在詞法分析器分析源 文字的時候,有乙個概念需要明確 1.物理行 由回車字串行...
Python的詞法分析與語法分析
詞法分析 lexical analysis 分析由字元組成的單詞是否合法,如果沒有問題的話,則產生乙個單詞流。語法分析 syntactic analysis 分析由單詞組成的句子是否合法,如果沒有問題的話,則產生乙個語法樹。在詞法分析器分析源 文字的時候,有乙個概念需要明確 1.物理行 由回車字串行...