awk擷取字元命令 聊聊AWK命令的那些事

2021-10-13 21:12:41 字數 2125 閱讀 2467

作為乙個大資料開發,先來乙個我比較喜歡的面試題。

對於下面的nginx日誌access.log,用指令碼分析出訪問ip的top 10。

其實這個題不難,但是考察了幾個常用的shell 命令,awk、uniq、sort、head,我覺得對於做大資料開發、運維、數倉等來說都是應該必備的。

2018-11-20t23:37:40+08:00 119.15.90.30 - "get /free.php?proxy=out_hp&sort=&page=1 http/1.1" "/free.php" - 200 0.156 362 6849/7213 tlsv1.2 ecdhe-rsa-aes128-gcm-sha256 - - - "mozilla/4.0 (compatible; msie 6.0; windows nt 5.1; sv1; qqdownload 732; .net4.0c; .net4.0e; lbbrowser)"
來上答案

cat access.log | awk ''| uniq -c | sort -k1 -nr| head -10
其實這個問題還有很多變種,比如除了指令碼,用你最熟悉的語言寫出來,還有如果檔案過大,超過了記憶體限制,怎麼處理。不過這些都是題外話了,我們今天主要講一下awk在工作中的一些簡單的應用。

其實awk的功能非常強大,不過今天我們主要來講講在我們的工作中比較常用的awk用法。

-f 指定拆分檔案的分隔符,預設是空格或者 t 比如上面的日誌我們想獲取第二列的ip位址,我們可以這樣寫

awk -f ' ' ''  access.log
空格我們是可以不用寫的,我這裡寫出來做乙個示範。

其實還有一種特殊字元,比如hive中預設分隔符是0x01,這種的使用awk怎麼寫呢?

awk -f '001' '' abcd.txt
有一些時候我們可以用awk 擷取其中的某幾個字段拼接出來我們想要的一些語句。

比如我們想擷取上面access.log裡面的ip欄位,然後生成一些sql,插入到資料庫。

有人會問,這種場景一般什麼時候會用呢,比如你有一萬條或者更多的資料,你完全可以寫乙個sql來插入,但是如果是數量太多的話,一次性寫入太多資料,會導致鎖表,這個時候其他人就沒法插入了,如果是線上的生產環境就更不允許了,所以對於一些類似的操作,我們可以拆分出多個sql來乙個個的執行,這樣單個sql鎖表的時間就會減少,避免長時間鎖表帶來的資料庫不可用。

有時候我們只想列印出來一些我們想要的列,我們可以通過正則匹配來做。

比如我們想列印出來上面的access.log中117開頭的ip,可以這樣做.

awk '$2 ~ /^117/ ' access.log
其實awk還可以幫我們實現一些簡單的類似sql的功能,我們也簡單說一下。

比如我們有乙個下面的學生表

id 班級 姓名

id class name

1 1班 張三

2 2班 李四

3 1班 王五

4 3班 趙六

比如我們想統計每個班級有多少同學,可以使用如下命令

awk ' end }' student.txt
我們定義了乙個類似map的變數a,key是班級名稱,也就是第二列,value值是每個班級對應的人數,最後通過乙個for迴圈輸出。

其實awk還有非常多、非常強大的功能,但是對於我們工作中我覺得用處並不大,這裡就不著重介紹了,感興趣的朋友可以網上找一些相關的資料。

awk擷取字段

file 期望每行刪除第二個 之前的內容,得到 isbctruncate 1 socialtime 1 nettype mobile isbctruncate 1 socialtime 1 nettype pc 我的處理方法是 awk f file 從第三個字元開始處理,並且以 為分隔符,因為最後乙...

awk,分隔符編輯擷取字元

輸入字段分隔符 awk的內建變數fs中儲存了輸入字段分隔符的值。使用fs的預設值時,awk用空格或製表符來分隔字段,並且刪除各字段前多餘的空格或製表符。可以通過在begin語句中或命令列上賦值來改變fs的值。接下來我們就要在命令列上給fs指定乙個新的值。在命令列上改變fs的值需要使用 f選項,後面指...

awk f 分隔符 命令 awk 命令快速入門

awk 是乙個強大的文字分析工具,可以非常方便地處理每行都是相同格式的文字,是linux中功能強大的資料處理引擎之一。演算法集市 grep命令快速入門 zhuanlan.zhihu.com 演算法集市 sed 命令快速入門 zhuanlan.zhihu.com 前面兩篇分別示例了 grep sed ...