python爬蟲指的是python網路爬蟲,又被稱為網頁蜘蛛,網路機械人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html、js、css**返回給瀏覽器,這些**經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前
如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而python爬蟲就是乙隻小蜘蛛,
python爬蟲的基本原理
1、發起請求
使用http庫向目標站點發起請求,即傳送乙個request
request包含:請求頭、請求體等
request模組缺陷:不能執行js 和css **
2、獲取響應內容
如果伺服器能正常響應,則會得到乙個response
3、解析內容
解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等
解析json資料:json模組
解析二進位制資料:以wb的方式寫入檔案
4、儲存資料
資料庫(mysql,mongdb、redis)
「python爬蟲「是什麼呢?
python爬蟲是用python程式語言實現的網路爬蟲,主要用於網路資料的抓取和處理,相比於其他語言,python是一門非常適合開發網路爬蟲的程式語言,大量內建包,可以輕鬆實現網路爬蟲功能。python爬蟲可以做的事情很多,如搜尋引擎 採集資料 廣告過濾等,python爬蟲還可以用於資料分析,在資料...
爬蟲是什麼?
認識爬蟲是學習爬蟲的第一步。曾經我覺得爬蟲是乙個很高大上的玩意兒,高大上到我完全不知道它是做什麼用的。後來因為幫別人做乙個二手車 需要知道所有車的類別 車型 車系,於是就用curl抓去了某網的所有這方面資訊,對,你沒有猜錯,就是它的,算是用php的curl寫了乙個初級不能再初級的 爬蟲 才知道,我了...
python爬蟲是什麼概述 python爬蟲概述
爬蟲的使用 爬蟲用來對網路的資料資訊進行爬取,通過url的形式,將資料儲存在資料庫中並以文件形式或者報表形式進行展示。爬蟲可分為通用式爬蟲或特定式爬蟲,像我們經常用到的搜尋引擎就屬於通用式爬蟲,如果針對某一特定主題或者新聞進行爬取,則屬於特定式爬蟲。一般用到的第三方庫有urllib request ...