1.詞幹提取:
詞幹提取是將詞語除去變化或者衍生形式,轉化為詞幹或原型形式的過程。詞幹提取的目標是將相關詞語還原為同樣的詞幹,哪怕詞幹並非詞典的詞目。
2.詞形還原:
詞性還原是將一組詞語還原為詞源或詞典的詞目形式的過程。還原過程考慮了pos問題,即詞語在句中的語義,詞語對相鄰語句的語義等。
3.詞向量化
詞向量化是用一組實數構成的向量代表自然語言的叫法。這種技術非常實用因為電腦無法處理自然語言。詞向量化可以捕捉到自然語言和實數間的本質關係。通過詞向量化,乙個詞語或者一段短語可以用乙個定維的向量表示。
4.詞性標註:
詞性標註就是對句子中的詞語標註為名字、動詞、形容詞、副詞等的過程。
NLP學習路徑(一) NLP基礎知識
1 基本術語 1 分詞 分詞常用手段 基於字典的最長串匹配,但歧義分詞很難。比如 美國 會 通過法案。美 國會 通過法案。2 詞性標註 詞性 動詞 名詞 形容詞等 目的 表徵詞的一種隱藏狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。比如 我 r愛 v中國 ns。其中,ns代表名詞,v是動詞,ns,v...
NLP基礎知識
1 聲學識別模型 將從麥克風收集來的聲音,進行一些訊號處理,將語音頻號轉化到頻域,從每10毫秒的語音中提出乙個特徵向量,提供給後面的聲學模型。聲學模型負責把音訊分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文字。2 pomdp框架 3 ap...
NLP基礎知識
英文用nltk,中文用jieba,比較難處理的時候可能要借助正規表示式 2 derivation引申 影響詞性 walking walk walked walk went歸一成go are歸一成be 比如原本是are are,is is 標註後are v be,is v be 比如中文的 的,地,得...