分詞(segment):中英文都存在分詞的問題,不過相對來說,英文單詞與單詞之間本來就有空格進行分割,所以處理起來相對方便。但是中文書寫是沒有分隔符的,所以分詞的問題就比較突出。分詞常用的手段可以是基於字典的最長串匹配,據說可以解決85%的問題,但是歧義分詞很難。另外就是當下主流的統計機器學習的辦法,利用hmm/crf這一類的模型解決
詞性標註(label):基於機器學習的方法裡,往往需要對詞的詞性進行標註。標註的目的是,表徵詞的一種隱狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。例如:蘇寧易購/n 投資/v 了/u 國際公尺蘭/n。其中,n代表名詞,v代表動詞,n,v都是標註。以此類推。
命名實體識別(named entity recognition):本質上還是標註問題的一種。只不過把標註細化了。比如,蘇寧/cmp_s 易購/cmp_e 是/v b2c/n 電商/n。我們把蘇寧易購 標註成cmp_s和cmp_e,分別表徵公司名的起始和結束。這樣,當遇上蘇寧/雲商/易購這種場景時,也可以完整得識別出它是乙個公司名稱。如果,按照傳統的標註方式,蘇寧/cmp 易購/cmp這樣籠統地標註可能會有問題。
句法分析(syntax parsing):句法分析往往是一種基於規則的專家系統。當然也不是說它不能用統計學的方法進行構建,不過最初的時候,還是利用語言學專家的知識來構建的。句法分析的目的是解析句子的中各個成分的依賴關係。所以,往往最終生成的結果,是一棵句法分析樹。句法分析可以解決傳統詞袋模型不考慮上下文的問題。比如,張三是李四的領導;李四是張三的領導。這兩句話,用詞袋模型是完全相同的,但是句法分析可以分析出其中的主從關係,真正理清句子的關係。
指代消解(anaphora resolution):中文中代詞出現的頻率很高,它的作用的是用來表徵前文出現過的人名、地名等詞。例如,蘇寧易購坐落在南京,這家公司目前位於中國b2c市場前三。在這句話中,其實「蘇寧易購」這個詞出現了2次,「這家公司」指代的就是蘇寧易購。但是出於中文的習慣,我們不會把「蘇寧易購」再重複一遍。
情感識別(emotion recognition):所謂情感識別,本質上是分類問題。情感基本可以分類2類或者3類。正面、負面,有時再加上非正非負。一般來說,在電商企業,情感識別可以分析商品評價的好壞,以此作為下乙個環節的評判依據。通常的做法,可以基於詞袋模型+分類器,或者現在流行的詞向量模型+rnn。經過測試後者比前者準確率略有提公升。
糾錯(correction):自動糾錯在搜尋技術中利用得很多。由於使用者的輸入出錯的可能性比較大,出錯的場景也比較多。所以,我們需要乙個糾錯系統。具體做法有很多,可以基於n-gram進行糾錯,資料結構上,字典樹、有限狀態機可以考慮。
問答系統(qa system):這是一種類似機械人的人工智慧系統。比較著名的有,ibm watson,google allo,蘋果siri,微軟小冰等等。問答系統往往需要語音識別、合成,自然語言理解、知識圖譜等多項技術的配合才會實現得比較好。個人認為,qa系統是nlp從業者乙個較難做好的產品。
NLP常用術語解析
自然語言處理,後者用英文稱為 natural language processing nlp 包含一系列相對專業的術語,比如 命名實體識別 詞性標註等。剛開始做nlp的時候,往往會搞不清這些術語的具體含義,尤其是看一些會議 期刊的 的時候,英文的表達方式也比較多樣,所以這裡咱就梳理一下一些基本的概念...
NLP專業術語
hyper parameters 在訓練模型時,有些引數是需要手動設定的,每個引數有乙個可選的範圍或者列表可供訓練,可以呼叫sklearn的gridsearchcv函式來自動統計搜尋。development set 在 中也簡寫成dev。一般在訓練模型時需要用到交叉驗證,這部分用來交叉驗證訓練的樣本...
外貿常用術語 常用外貿術語
預約發票 p i proforma invoice 發給客戶催定金用的,通常是在下單前使 用。訂購單 p o purchase order 下定單用的。銷售確認書 s c sales confirmation 如果客戶沒有下 p o給你,你又想把 要求說清楚,就做這個給他簽字回傳。內容與 p o差不...