88 爬蟲爬取span資訊

2021-09-02 07:55:52 字數 1345 閱讀 8521

我們在爬取網頁之後

有大量的無用的資訊

所以我們需要用正規表示式去篩選一下

我們先來試試普通爬取

var channel = make(chan bool)

func main()

func startspider(start int, end int)

for i := start; i <= end; i++

}func spider(url string, filename string)

defer resp.body.close()

bytes, err := ioutil.readall(resp.body)

if err != nil

writeerr := ioutil.writefile(filename, bytes, 0666)

if writeerr != nil

channel <- true

}然後我們加上乙個方法

handlebody(bytes)

用正則來匹配我們想要的東西

bytes, err := ioutil.readall(resp.body)

if err != nil

handlebody(bytes)

func handlebody(bytes byte)

結果有所以成功找到了一些**

然後我們再試試找一下span標籤

func handlebody(bytes byte)

但是我們發現

匹配到的資料還是比較多而且比較雜亂

如果我們只是想要文字怎麼辦

var channel = make(chan bool)

func main()

func startspider(start int, end int)

for i := start; i <= end; i++

}func spider(url string, filename string)

defer resp.body.close()

bytes, err := ioutil.readall(resp.body)

if err != nil

str := handlebody(bytes)

writeerr := ioutil.writefile(filename, byte(str), 0666)

if writeerr != nil

channel <- true

}func handlebody(bytes byte) string

} }return str

}

python爬蟲(爬取導師資訊)

直譯器 我下的是3.8.2版本 pycharm 我下的是2019.3.3版本 注意 python安裝時要勾選 pycharm安裝時這四個全選上 檢查python是否安裝好可以在cmd命令中輸入python,出現下圖即可 2.爬取網頁資訊 以浙工大為例 codeing utf 8 time 2022 ...

Python簡單爬蟲(爬取天氣資訊)

初學python,學到python爬蟲時在網上找資料,發現找到的大部分都是前部分內容對運作方式介紹,然後就直接上 了,這樣對像我一樣的小白來說比較困難,的注釋較少,部分 塊沒有詳細說明運作方式和具體作用,所以寫此筆記方便別人和自己以後進行學習檢視。作業系統window python2.7.10 wi...

c 爬蟲爬取商品資訊

在乙個小專案中,需要用到京東的所有商品id,因此就用c 寫了個簡單的爬蟲。在解析html中沒有使用正規表示式,而是借助開源專案htmlagilitypack解析html。public static string downloadhtml string url,encoding encode catc...