tag: chatset 字符集 過濾
搞煩了好多次了,就在想用什麼方法可能快速、方便地處理呢?於是想做乙個關於「字符集分析及過濾的工具」,就有了這個小工具。
我查詢了有關utf8字符集的資料,其實字符集存放是有一定規律的,當然這裡就涉及到什麼標準啊之類的很多內容,這裡不詳細展開。 如果能夠把各類的字元歸一下類,那麼就能夠把這些不可見的字元找出來了。這裡把utf8字符集分成了40類。
其中有幾類要特別說明一下:
其它更詳細的請見後文中的清單
utf-8字符集分析過濾工具 charsetfilter
版本: v 1.0.1
更新:xmxoxo 2019/10/14
工具說明:本工具把utf8字符集分成了40個子集,可對文字檔案中的字符集進行分析,
統計各類字元的總數以及出現的種類數。同時還可以方便地過濾或者保留的字元,
特別適合nlp等領域中對不可見字元的過濾分析等處理。
注: 被分析的文字檔案需要是utf8格式
分析文字字符集,輸出簡要資訊
python charsetfilter.py --file ./111.txt
分析文字字符集,輸出詳細資訊,詳細資訊會儲存到 ***_report.txt 檔案中
python charsetfilter.py --file ./111.txt --detail 1
分析文字字符集,按預設值過濾(過濾 「尚未識別 0」, 「控制字元 3」),並儲存過濾結果(自動命名)
python charsetfilter.py --file ./111.txt --filter 1
分析文字字符集,僅保留 1,2,36,39,並儲存過濾結果(自動命名為 ***_out.txt)
python charsetfilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39
以下是使用的一些截圖:
字符集分析結果截圖
[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-xocolju9-1571024581088)(
字符集分析詳細結果輸出檔案截圖(部分):
[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-qa9s04tp-1571024581089)(
'尚未識別', #0 除以下標識的範圍之外的字元,基本可認為是沒有用的字元
'系統字元', #1 包括換行,製表,回車等
'英文半形', #2 包含數字,字母,符號,空格
'控制字元', #3 可刪除,會影響文字處理
'擴充套件半形', #4 一些半形符號
'韓文本元', #5
'傣文字元', #6
'新傣文字', #7
'標點字元', #8
'上標下標', #9
'字母符號', #10
'數字符號', #11
'箭頭字元', #12
'數學符號', #13 全形數學符號
'工程符號', #14
'控制圖符', #15
'識別符號', #16
'序號字元', #17 帶圓圈的序號字元
'製表字元', #18
'方塊元素', #19
'雜項符號', #20
'裝飾符號', #21
'盲文符號', #22
'部首補充', #23
'康熙部首', #24
'漢字結構', #26
'標點符號', #27
'日文字元', #28
'韓文本母', #29
'筆劃字元', #30
'日文拼音', #31
'帶框月份', #32
'日期單位', #33
'擴充套件漢字', #34
'易經字元', #35
'基礎漢字', #36 基本漢字
'彝文本元', #37
'韓文本元', #38
'全形字符', #39 全形的標點符號
mysql文字字符集 MySQL字符集
字符集 1.什麼是字符集 字符集 是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字 標點符號 圖形符號 數字等。最早的字符集 ascii碼 中國的字符集 gbk,utf8,gbk2312 日本字符集 shift jis 南韓字符集 euc kr 萬國編碼 unicode...
python文字字元分析
編寫程式接收字串,按字元出現頻率的降序列印字母。分別嘗試錄入一些中英文文章片段,比較不同語言之間字元頻率的差別。a6.4calletter txt input 請輸入一段英文片段 txt txt.lower count for i in range 97 123 count chr i txt.co...
中文字符集
gb2312 1980年 16位字符集,收錄有6763個簡體漢字,682個符號,共7445個字元。優點 適用於簡體中文環境,屬於中國國家標準,通行於大陸,新加坡等地也使用此編碼 缺點 不相容正體中文,其漢字集合過少。gbk 1995年 16位字符集,收錄有21003個漢字,883個符號,共21886...