一、如何定義乙個單詞
在統計一句話有多少個單詞的時候,首要問題是如何定義乙個單詞,通常有三種情況:
是否認為句中的停頓詞比如uh是乙個單詞,我們稱之為fragment,或者filled pause。
是否認為乙個單詞的不同形態是乙個單詞。
是否認為乙個完整的片語,比如san francisco是乙個單詞
以上三種在不同任務下有不同的處理方法。
二、統計什麼資訊
在統計時,我們統計如下資訊:
word types:詞彙表中的乙個元素,不重複
word token:文字中該type的乙個例項,可重複
一般如下表示:
corpora:語料庫,也就是文字的資料集
n:token的數目
v:單詞表,也就是type的集合
三、資料預處理
將所有的大寫字母轉為小寫
將縮寫詞擴寫,比如we're 擴寫為we are
將連線符去掉,比如state-of-the-art 改寫為 state of the are
將自連的單詞切分開,比如lowercase改寫為lower case
四、中文分詞
對於中文來說,分詞更困難,因為沒有空格隔開,一般的baseline方法是maximum matching(也稱作貪心)
maximum matching:
給定乙個中文單詞表和乙個要分詞的字串
從字串的最開始建立乙個指標
在單詞表中找到指標所指字元所能匹配的最長的單詞
移動指標到這個單詞的下乙個字元
重複步驟3
NLP Stanford課堂 情感分析
例項 公眾 消費者的信心是否在增加 公眾對於候選人 社會事件等的傾向 市場的漲跌 affective states又分為 在情感分析中,我們針對的是attitude,分析的是 attitude的文字 句子或者整個文件 情感分析的任務 資料 polarity data 2.0 步驟 tokenizat...
英文分詞和中文分詞
由於英語的基本組成單位就是詞,所以相對來說簡單很多。大致分為三步 3s 根據空格拆分單詞 split 排除停止詞 stop word 提取詞幹 stemming 1 根據空格拆分單詞 這一步是是最簡單的一步,英語的句子基本上就是由標點符號 空格和詞構成,那麼只要根據空格和標點符號將詞語分割成陣列即可...
最小分詞(中文分詞)
中文分詞一般有下面幾種方法 1 基於字串匹配的分詞方法 1 正向最大匹配法 由左到右的方向 2 逆向最大匹配法 由右到左的方向 3 最少切分 使每一句中切出的詞數最小 這幾種方法一般都是通過 字典 來實現的,比如 中國航天 應邀到美國與太空總署 開會 其中字典如下 中國航天 這樣子 流掃瞄 中,第乙...