# 3、a、中文編碼 從資料夾讀檔案 (問原文標記還是輸出歧義句子)# 寫檔案的時候每次檔案名字加一(之前有處理過分檔案)
# b、提取「 |/w |/w |/w」之前的中文句子進行判斷
# c、判斷分為幾個情況
# * 含有「/k」 無操作
# * 含有「/ni」 無操作
# * 只要含有「d」 「r」 「c」 有歧義
# * 開頭含有「 v | u | p」 :(.*) $1 =~ "/v || /u || /p"
# * 開頭含有「m」 + "q" 或者 「m」 + "n" : $1=~ "m" && $2=~ "q" || $2=~ "n"
# * 開頭有 「和」 看前兩個字
# * 結尾不是「/n」 .* (.*)
useencode;
#use utf8;
$utf8
;
open(in,"
100001.txt
"); #
邁向/v 充滿/v 希望/n 的/u 新/a 世紀/n
open(out,"
>tanhao.txt
");
@lines=;
$n=0
;chomp(@lines
);foreach
$oneline(@lines
)
if($oneline =~ /(.*)\s(.*)/)
}if($oneline =~ /(.*)\s+(.*)\s+(.*)/)
}if($oneline =~ /[^\/n]\/s\|\/w/)
}close
(in);
close(out);
乙個標註**:
Perl 正則匹配 對分詞標註結果正則匹配
3 a 中文編碼 從資料夾讀檔案 問原文標記還是輸出歧義句子 寫檔案的時候每次檔案名字加一 之前有處理過分檔案 b 提取 w w w 之前的中文句子進行判斷 c 判斷分為幾個情況 含有 k 無操作 含有 ni 無操作 只要含有 d r c 有歧義 開頭含有 v u p 1 v u p 開頭含有 m ...
perl正則匹配
字元的種類是一定的,無非是空格,數字,大小寫字母,和perl中定義的元字元,還有本國語言。所以原則上任何格式的字元都能匹配。匹配工具 選擇符號,關鍵字,量詞,斷言,轉義字元 當出現多個字元組成的 非空格字元時候,例如123,45 3 s sdgg 則使用 0 9a za z 若加上 則只能匹配一行中...
perl中的正則匹配
一 簡介 模式指在字串中尋找的特定序列的字元,由反斜線包含 def 即模式def。其用法如結合函式split將字串用某模式分成多個單詞 array split line 二 匹配操作 匹配操作符 檢驗匹配是否成功 result var abc 若在該字串中找到了該模式,則返回非零值,即true,不匹...