處理資料檔案

2021-09-26 05:12:15 字數 1878 閱讀 2829

排序資料

處理大量資料時的乙個常用命令是sort命令, sort命令是對資料進行排序的。

預設情況下,sort命令會按照會話的指定的預設語言的排序規對檔案檔案中的資料行排序

-k 和-t引數在對按字段分隔的資料進行排序時非常有用,列入

搜尋資料

你會經常需要在大檔案中找一行資料,而這行資料又埋藏在檔案的中間。這時並不需要手動

翻看整個檔案,用grep命令來幫助查詢就行了。grep命令的命令列格式如下。

grep [options] pattern [file]

grep命令會在輸入或指定的檔案中查詢包含匹配指定模式的字元的行。grep的輸出就是包

含了匹配模式的行。

下面兩個簡單的例子演示了使用grep命令來對4.3.1節中用到的檔案file1進行搜尋。

$ grep three file1

three

$ grep t file1

twothree

$第乙個例子在檔案file1中搜尋能匹配模式three的文字。grep命令輸出了匹配了該模式的

行。第二個例子在檔案file1中搜尋能匹配模式t的文字。這個例子裡,file1中有兩行匹配了

指定的模式,兩行都輸出了。

反向搜尋(輸出不匹配該模式的行 ),可以加-v 引數

顯示匹配模式的行所在行號   -n

只要知道多少行含有匹配的模式  -c

指定多個匹配模式  -e

以下是在grep搜尋中使用正規表示式的簡單例子。

$ grep [tf] file1

twothree

four

five

$正規表示式中的方括號表明grep應該搜尋包含t或者f字元的匹配。如果不用正規表示式,

grep就會搜尋匹配字串tf的文字。

egrep命令是grep的乙個衍生,支援posix擴充套件正規表示式。posix擴充套件正規表示式含有更

多的可以用來指定匹配模式的字元(參見第20章)。fgrep則是另外乙個版本,支援將匹配模式

指定為用換行符分隔的一列固定長度的字串。這樣就可以把這列字串放到乙個檔案中,然後

在fgrep命令中用其在乙個大型檔案中搜尋字串了

壓縮資料

如果你接觸過microsoft windows,就必然用過zip檔案。它如此流行,以至於微軟從windows

xp開始,就已經將其整合進了自家的作業系統中。zip工具可以將大型檔案(文字檔案和可執行

檔案)壓縮成占用更少空間的小檔案。

linux包含了多種檔案壓縮工具。雖然聽上去

gzip命令會壓縮你在命令列指定的檔案。也可以在命令列指定多個檔名甚至用萬用字元來

一次性批量壓縮檔案

歸檔資料

雖然zip命令能夠很好地將資料壓縮和歸檔進單個檔案,但它不是unix和linux中的標準歸檔

工具。目前,unix和linux上最廣泛使用的歸檔工具是tar命令。

tar命令最開始是用來將檔案寫到磁帶裝置上歸檔的,然而它也能把輸出寫到檔案裡,這種

用法在linux上已經普遍用來歸檔資料了。

下面是tar命令的格式:

awk 處理資料檔案

一 資料處理 1 程式 begin end a.dat b.dat merge.dat merge.dat 0 100 0 100 1 99 3 102 2 93 0 93 3 90 2 92nr fnr,只有當處理第乙個檔案a.dat時,這個值才返回true,所以相應的處理是把第二列的數賦值給陣列...

Postman Data資料檔案處理

在postman的引數方式中有乙個是data資料檔案,可以是json格式也可以是csv檔案格式,在collection runner執行的時候,可以迭代地從資料檔案中獲取一行資料,分別用在請求的引數化變數中,如 abc就是資料檔案中某一欄位。使用data資料檔案檔案引數化,可以有效地提高postma...

23 處理資料檔案

資料分析需求 每行內容需要生成以每行 首年月日為名稱的檔案,檔案內容寫入 0 後的所有 行內容 也包括 0 演算法分析 遍歷每一行,每行取頭14個字母 新建檔案,檔名為首14個字母,然後把第15字元後的所有字 符拷貝到檔案中 關閉檔案 fp open e data.log for line in f...