sub getdictclass
@line=split(" ",$_);
for($sub=0;$sub<@line;$sub++))++;
}else=1;
@chars=split //,$line[$sub];
$hashnum=scalar(@chars);
#得到詞長}}
}$counttype=0;
$counttoken=0;
#判斷,基數詞(cn,a),序數詞(cn,a),字母詞,日期
foreach (sort keys (%hash)) >1);
print "$keyword $hashnum $hash/n";}}
elsif($flag eq 'xushuci_cn')
;print "$keyword $hashnum $hash/n";}}
}elsif($flag eq 'jishuci')#需要人工繼續篩選
;print "$keyword $hashnum $hash/n";}}
}elsif($flag eq 'jishuci_cn')#需要人工繼續篩選
;print "$keyword $hashnum $hash/n";}}
}elsif($flag eq 'zimuci')
;print "$keyword $hashnum $hash/n";}}
elsif($flag eq 'time')
;print "$keyword $hashnum $hash/n";}}
}}}print "type:$counttype token:$counttoken/n";
close(in);
}
Perl 中文 字頻統計 Perl 例子
usr bin perl 如果在文字中使用大字符集,那麼將文字儲存成utf 8格式。並將下面的注釋標誌去掉,同時給後面的簡體中文編碼語句加注釋標記 use utf8 使用簡體中文編碼,否則拆分單個漢字會出錯。use encoding euc cn 如果不提供待統計文字,退出程式 die if arg...
利用perl 改寫awk統計
root dwh1 log who dwetl pts 0 2015 03 05 16 29 10.130.136.56 dwetl pts 1 2014 12 12 20 41 10.129.133.154 dwetl pts 2 2015 03 09 15 57 10.129.224.28 ro...
perl統計各個fasta序列長度及其出現次數
usr bin perl use strict use warnings my seq my hash my id my length 讀取控制代碼,input為標準fasta資料格式,即一行id,一行序列 open in,ar 0 ordie 輸出檔名已經固定 open out,read stat...