網路爬的是什麼蟲(一)

2021-08-06 04:47:26 字數 603 閱讀 2829

我對爬蟲的理解是,網際網路是一張網,那麼爬蟲就是乙隻趴在這個網上的蟲子,爬呀爬呀去找自己想找的東西,爬蟲可以由多種語言來實現,其中python用的較多。

從網頁上抓取內容大致分3步:

1、模擬瀏覽器訪問,獲取html源**

2、通過正則匹配,獲取指定標籤中的內容

3、將獲取到的內容寫到檔案中

import requests

from bs4 import beautifulsoup

import os

all_url = ''

start_html = requests.get(all_url,headers=headers)

soup = beautifulsoup(start_html.text,'lxml')

link_list = soup.find_all('link')

for lk in link_list:

print(lk.get('href'))

很有意思,後來我了解到網路爬蟲可以有好多用途,比如,網路攻防,教務處成績查詢,績點查詢,一鍵評教神馬的都可以,果然興趣是最好的老師~~那麼這第一篇文章就到這裡

網路協議是什麼?

什麼是協議?為了使資料可以在網路上從源位址傳遞到目的地,網路上所有裝置需要 講 相同 語言 協議是分層的為什麼?為了降低網路設計的複雜性,將協議進行了分層 模擬現實中例子如 郵局 郵局對寫信人是下層 運輸部門是郵局的下層 下層是為了上層提供服務 寫信人與收信人使用相同語言,郵局之間有約定,得出同層之...

python爬蟲是什麼概述 python爬蟲概述

爬蟲的使用 爬蟲用來對網路的資料資訊進行爬取,通過url的形式,將資料儲存在資料庫中並以文件形式或者報表形式進行展示。爬蟲可分為通用式爬蟲或特定式爬蟲,像我們經常用到的搜尋引擎就屬於通用式爬蟲,如果針對某一特定主題或者新聞進行爬取,則屬於特定式爬蟲。一般用到的第三方庫有urllib request ...

基礎網路概念 網路是什麼?

那麼多的作業系統要如何進行網路溝通呢?那就得要制訂共同遵守的標準才行。這個標準是由國際組織規範的,你的系統裡面只要提供可以加入該標準的程式 那你就能夠透過這個標準與其他系統進行溝通,而這個標準就是概念上的網路。網路就是幾部計算機主機或者是網路印表機之類的介面裝置,透過網路線或者是無線網路的技術,將這...