#
##1.什麼是爬蟲##
#網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者)
#是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。
##另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。
##其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。##
##2.爬蟲可以做什麼?##
#前提是你想要的資源必須可以通過瀏覽器訪問的到。##
#3.爬蟲的本質是什麼?##
#上面關於爬蟲可以做什麼,定義了乙個前提,是瀏覽器可以訪問到的任何資源,
#特別是對於知曉web請求生命週期的學者來說,爬蟲的本質就更簡單了。
#爬蟲的本質就是模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料。
##瀏覽器開啟網頁的過程:
##2.經過dns伺服器找到伺服器主頁,向伺服器傳送乙個請求。
#3.伺服器經過解析處理後返回給使用者結果(包括html,js,css檔案等等內容)
#4.瀏覽器接收到結果,進行解釋通過瀏覽器螢幕呈現給使用者結果。
##上面我們說了爬蟲的本質就是模擬瀏覽器自動向伺服器傳送請求,獲取,
#處理並解析結果的自動化程式。
#爬蟲的關鍵點:模擬請求,解析處理,自動化。##
##爬蟲的基本流程##
#發起請求:通過http庫向目標站點發起請求(request),
#請求可以包含額外的header等資訊,等待伺服器響應
# #
# #
# #####
# ###
# #
#獲取響應內容:如果伺服器能正常響應,
#會得到乙個response,response的內容便是所要獲取的頁面內容,型別可能是html,josn
# #
# #
# #####
# ###
# #
#解析內容:得到的內容可能是html,可以用正規表示式,頁面解析庫進行解析,可能
#是json,可能是二進位制資料,可以做儲存或者進一步的處理
# #
# #
# #####
# ###
# #
#儲存資料:儲存形式多樣,可以存為文字,也可以儲存到資料庫,
#或者儲存特定格式的檔案
#
Python 爬蟲 概念基礎
通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...
Python通用爬蟲,聚焦爬蟲概念理解
原理 1 抓取網頁 2 採集資料 3 資料處理 4 提供檢索服務 通用爬蟲如何抓取新 1 主動提交url 檢索排名 1 競價排名 2 根據pagerank值排名,由訪問量,點選量得出,seo崗位做的工作 這個協議僅僅是口頭上的協議,真正的還是可以爬取的。聚焦爬蟲 根據特定的需求抓取指定的資料。思路 ...
python 爬蟲筆記 簡單靜態
不太懂網頁上的專業術語。1.首先檢視頁面源 檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求 請求方法,host,user agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是...