使用python提取中文數字和英文

2021-08-21 05:46:50 字數 799 閱讀 9210

因為訓練word2vec模型,需要處理資料集發現其中有很多特殊符號,所以使用py

thon

3 pyt

hon3

進行了資料預處理,去除了預料中的特殊符號,這裡使用unicode加正規表示式來進行相關的匹配。

import re

string = "12345464我不是藥神123456abcdefgabcvdff?/ ,。,.:;:''';'''{}()()《》"

print(string)

12345464我不是藥神123456abcdefgabcvdff?/ ,。,.:;:''';'''{}()()《》

sub_str = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])","",string)

print(sub_str)

12345464我不是藥神123456abcdefgabcvdff

正規表示式的使用

函式說明

sub(pattern,repl,string)

把字串中的所有匹配表示式pattern中的地方替換成repl

[^**]

表示不匹配此字符集中的任何乙個字元

\u4e00-\u9fa5

漢字的unicode範圍

\u0030-\u0039

數字的unicode範圍

\u0041-\u005a

大寫字母unicode範圍

\u0061-\u007a

小寫字母unicode範圍

數字轉中文數字與中文數字轉數字

利用陣列與map的資料結構進行中文數字與數字之間的互相轉換 public class numberutil private static final char cn num private static final char cn unit private static final string c...

數字轉中文數字大寫

做財務報表時常需要將金額轉化中文數字大寫,有點坑。author qzc createdate 2015年6月22日 下午6 08 20 version 1 類 介面 主要功能 public class numbertocn 漢語中貨幣單位大寫,這樣的設計類似於佔位符 private static f...

大寫中文數字 財務

壹 貳 叄 肆 伍 陸 柒 捌 玖 拾 佰 仟 萬 億 元 圓 角 分 零 整。這是大家經常要填寫的大寫數字,問什麼要用大寫數字呢?想必很多人都不是很清楚!先看看以下兩個有關大寫數字的 1 數碼與大 小寫數字的對照表 數碼 小寫數字 大寫數字 0 零 1 一 壹 2 二 貳 3 三 叄 參 4 四 ...