Python 爬蟲流程及robots協議介紹

2021-09-10 18:05:35 字數 334 閱讀 3208

爬蟲大致分為了四個階段:

確定目標:我們想要爬取的網頁

資料採集:已經爬取到的html資料

資料提取:從html中提取我們想要的資料

資料儲存:將提取出來的資料儲存在資料庫,儲存成json檔案等

robots協議:

用簡單直接的txt格式文字方式告訴對應的爬蟲被允許的許可權,也就是說robots.txt是搜尋引擎中訪問**的時候要檢視的第乙個檔案,簡單的說就是定義了哪些資料可以爬取,哪些資料不能被爬取。

爬蟲訪問網頁的時候,首先檢視robots檔案,如果存在,則按照robots的規定確定可以爬取的範圍,如果不存在那麼所有沒有被保護的頁面的資料都可以爬取

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...

Python爬蟲基本流程

爬蟲定義 爬蟲基本流程 發起請求 通過url向伺服器傳送requests請求,請求可以包含額外的header資訊。2.獲取響應內容 解析內容 如果是html 則可以使用網頁解析器進行解析 如果是json資料則可以轉換成json物件進行解析 如果是二進位制資料則可以儲存到檔案進行進一步的處理。儲存資料...