無監督分詞,主要思路就是從未標註的語料(生語料)中抽取n-gram片段,然後計算這些n-grams的特徵,進而根據這些特徵判別哪些是「詞」,哪些不是「詞」。然後根據這些特徵對字串進行分詞。
也就是說,無監督分詞可以分成兩個研究領域,乙個叫做詞抽取(word extraction),就是只從生語料中抽取出乙個詞的列表來,另一類則是分詞,需要在詞抽取的基礎上,進行進一步的分詞操作,這種操作一般可以認為是一種解碼過程。
無監督分詞n-gram的特徵常用的有四個:
1 子字串削減詞頻,frequency of sub-string with reduction(fsr).基本就是詞頻特徵,其基本的idea就是認為如果兩個重合的n-gram,乙個包含另外乙個,詞頻一致,則較短的n-gram就不是詞,需要淘汰。
fsr(w)=log(p(w)),其中w就是n-gram片段,p(w)就是取w的詞頻。
一般而言,這個方法還包含乙個"statistical substring reduction"操作,就是將相同頻率的子字串刪除。
2 描述長度增益,description length gain。乙個n-gram片段用x(i)x(i+1)...x(j)表示,而全部語料可以用x=x(1)...x(n)表示
NLP 分詞 詞幹化 n gram
在nlp中,需要將文字進行單詞或片語的分割,以便於構建特徵。例如,i am a student 可以分詞為 i am a student 由於英文的特點,每個單詞都有空格,所以比較好分。但是像中文,只有句子與句子之間才有明顯的分割,單詞和片語之間無法直接分割,所以就需要一定的規則庫對中文分詞處理。詞...
有監督與無監督
機器學習分為 監督學習,無監督學習,半監督學習 也可以用hinton所說的強化學習 等。簡單的歸納就是,是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習 沒標籤則為無監督學習。有監督和無監督中間包含的一種學習演算法是半監督學習 semi super...
無監督調研
一.無監督 1.傳統的機器學習無監督 機器學習無監督 目前網上介紹的無監督學習,主要是機器學習方向,以聚類和降維為主,不太適用目前工程專案.2.深度學習無監督 待補坑 二.自監督學習 自監督思考 無監督特徵學習 自監督學習屬於無監督學習,在深度學習中,經常遇到的問題是沒有足夠的標記資料,而手工標記資...