因為訓練word2vec模型,需要處理資料集發現其中有很多特殊符號,所以使用py
thon
3 pyt
hon3
進行了資料預處理,去除了預料中的特殊符號,這裡使用unicode加正規表示式來進行相關的匹配。
import re
string = "12345464我不是藥神123456abcdefgabcvdff?/ ,。,.:;:''';'''{}()()《》"
print(string)
12345464我不是藥神123456abcdefgabcvdff?/ ,。,.:;:''';'''{}()()《》
sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)
print(sub_str)
12345464我不是藥神123456abcdefgabcvdff
正規表示式的使用
函式說明
sub(pattern,repl,string)
把字串中的所有匹配表示式pattern中的地方替換成repl
[^**]
表示不匹配此字符集中的任何乙個字元
\u4e00-\u9fa5
漢字的unicode範圍
\u0030-\u0039
數字的unicode範圍
\u0041-\u005a
大寫字母unicode範圍
\u0061-\u007a
小寫字母unicode範圍
數字轉中文數字與中文數字轉數字
利用陣列與map的資料結構進行中文數字與數字之間的互相轉換 public class numberutil private static final char cn num private static final char cn unit private static final string c...
數字轉中文數字大寫
做財務報表時常需要將金額轉化中文數字大寫,有點坑。author qzc createdate 2015年6月22日 下午6 08 20 version 1 類 介面 主要功能 public class numbertocn 漢語中貨幣單位大寫,這樣的設計類似於佔位符 private static f...
大寫中文數字 財務
壹 貳 叄 肆 伍 陸 柒 捌 玖 拾 佰 仟 萬 億 元 圓 角 分 零 整。這是大家經常要填寫的大寫數字,問什麼要用大寫數字呢?想必很多人都不是很清楚!先看看以下兩個有關大寫數字的 1 數碼與大 小寫數字的對照表 數碼 小寫數字 大寫數字 0 零 1 一 壹 2 二 貳 3 三 叄 參 4 四 ...