今天寫個簡單的程式,根據指定的 url 來抓取相應的網頁內容,然後存入本地檔案。這個程式會涉及到網路請求和檔案操作等知識點,下面是實現**:
// 讀取資源資料 body: byte
body, err := ioutil.readall(res.body)
// 關閉資源流
res.body.close()
if err != nil
// 控制台列印內容 以下兩種方法等同
fmt.printf("%s", body)
fmt.printf(string(body))
// 寫入檔案
ioutil.writefile("site.txt", body, 0644)
}上面的**中,我們引入了 net/http 網路包,然後呼叫 http.get(url) 方法獲取 url 對應的資源,之後讀取出資源資料,然後在控制台列印,並將內容寫入到本地檔案中。
需要注意的是,在讀取資源資料完畢後,應該及時將資源流關閉,避免出現記憶體資源的洩露。
另外,在處理異常時,我們使用了 fm.fprintf() 這個方法,它是格式化三大方法之一:
$ ./fetch
執行完程式,在當前目錄中會生成乙個 site.txt 檔案。 Golang 併發抓取網頁內容
建立正則常量 var re regexp.mustcompile w w func main 開始時間 start time.now for url range urls 讀取資源資料 body,err ioutil.readall res.body 關閉資源 res.body.close if e...
網頁內容抓取
之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...
c 抓取網頁內容
新增的引用 using system.net using system.io using system.io.compression 1.webclient mywebclient new webclient mywebclient.credentials credentialcache.defau...