Linux中文字工具檢視,分析統計文字

2021-09-13 10:52:37 字數 1852 閱讀 8884

抽取文字的工具

檔案檢視一般選擇cat命令,直接在命令框中檢視檔案中內容,不開啟檔案

cat [option]…[file]…

-e 顯示行結束符$

-n 對顯示的每一行進行編號

-a 顯示所有的空字元

-b 對非空字元進行顯示

-s 壓縮連續的空行成一行

檢視文字前幾行

head 命令

head [option]…[file]…

-c# 顯示獲取前#位元組

-n# 顯示獲取前#行內容

-# 指定行數

在檔案內容末尾開始檢視

tail[option]…[file]…

-c# 顯示獲取後#位元組

-n#顯示獲取後#行

-# 顯示獲取後#行

-f 跟蹤顯示檔案新追加的內容,常用於監控日誌,相當於–follow=descriptor

-f 跟蹤檔名,相當於——follow=name --retry

按列抽取文字cut和合併檔案paste

cut [option]…[file]…

cut -d分隔符 -f#,# :

cut -d分隔符 為以分隔符為基準取資料

-f#,#為所取字段的範圍。 -d -f 一般合起來使用

以1和2欄位

以1和4欄位

截取出ens33中的ip位址

首先用head命令擷取ifconfig命令的前兩行,用tail擷取兩行中的後面一行,使用tr -s 「 」將重複的空格合併成乙個方便顯示,最後用cut 命令的-d -f命令擷取ip位址

文字資料統計:wc

wc會對文中中單詞的總數,行數,位元組總數和字元總數進行統計

36 ,,,81 ,, 1955 ,, f5

行數 ,, 字數 , 位元組數 , 檔名

-l 只對行計數

-w 對單詞總數計數

-c 只對位元組數計數

-m 只對字元數計數

-l 顯示檔案中最長行長度

-r 執行反方向整理

-u 刪除輸出中的重複行

uniq命令:在輸出中直接刪除前後相接重複的行

-c 顯示每行中重複的次數

-d 僅顯示重複的行

Linux中文字的檢視 處理 排序 統計

文字檢視 cat 連線並顯示檔案到標準輸出 n 顯示行號,行號只是行號,不是檔案內容 a 顯示隱藏字元 不帶任何選項時,從標準輸入接收輸出到標準輸出 tac 按行逆序顯示檔案,同cat more 支援向後翻,在沒有翻到最後一屏時支援向前翻,空格 k 回車 less 前後翻,用法同man,man手冊就...

Linux文字檢視

在linux系統下,有很多命令可以檢視文字檔案的內容,如cat tac nl more less head tail等命令,當然還有vi nano等文字編輯器。在這裡,我只介紹其中自己常用的一部分命令和操作。cat 從第一行開始顯示全部的文字內容 tac 從最後一行開始,顯示全部分文字內容,與cat...

中文文字字符集分析過濾工具

tag chatset 字符集 過濾 搞煩了好多次了,就在想用什麼方法可能快速 方便地處理呢?於是想做乙個關於 字符集分析及過濾的工具 就有了這個小工具。我查詢了有關utf8字符集的資料,其實字符集存放是有一定規律的,當然這裡就涉及到什麼標準啊之類的很多內容,這裡不詳細展開。如果能夠把各類的字元歸一...