使用Shell抓取網頁特定資料,並進行文字處理

2022-05-14 21:49:57 字數 591 閱讀 1062

【原始需求】

公司使用者手冊是sgml的原始碼,其中文件中存在一些sql語句,當前想驗證這些sql是否可拷貝執行。

【對策】

使用手工拷貝驗證,太慢了。

經分析,原始碼部分一般使用和標籤進行約束,於是shell要抓取的具體內容針對這兩個標籤來進行。

記錄思路如下:

1、先處理sql中的注釋(使用--進行注釋 類似於c語言的#)

2、將文字去空格進行序列處理,使用如上標籤進行分割,然後取分割後的偶數字置上的值(不解釋)

3、通過第二步可以得到標籤中的內容,需要對標籤中的特殊字元進行處理

#!/bin/bash

path='

/home/ckdu/sgml_qsruan/sgml

'for

file

in `ls /home/qs/sgml/*

.sgml`

do cat $ |sed 's/−/-/g'|awk -f'--' ''> $.tmp

cat $.tmp | awk '' |awk -f "()|()|()|()" '.sql

done

沒有排格式,偷個懶。

提取網頁特定資料的案例

beautifulsoup可以使我們通過網頁的標籤找到網頁中我們想要的特定資料。本案例可以清楚地理順從html檔案變化到我們想要獲得的資料。python程式如下 from bs4 import beautifulsoup import requests url html requests.get u...

執行緒特定資料

執行緒特定資料也稱執行緒私有資料,是儲存和查詢某個特定執行緒相關資料的一種機制。在分配執行緒特定資料之前,需要建立與該資料相關聯的鍵,以用於獲取對執行緒特定資料的訪問。使用函式 pthread key create 可建立乙個鍵,而對所有的執行緒,都可以通過 pthread key delete 來...

執行緒特定資料函式的使用

apue 12.6節 執行緒特定資料 或執行緒私有資料,tsd 的學習 建議參考 unix網路程式設計卷1 的第26.5節來看,它講得更加詳細。練習 如下 include apue.h include static pthread key t r key static pthread once t ...