初識python爬蟲
網際網路簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html、js、css**返回給瀏覽器,這些**經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前;
一、什麼是爬蟲
網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是乙隻小蜘蛛,沿著網路抓取自己的獵物(資料)
二、爬蟲的基本流程:
使用者獲取網路資料的方式:
方式2:模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中
爬蟲要做的就是方式2;
1、發起請求
使用http庫向目標站點發起請求,即傳送乙個request
request包含:請求頭、請求體等
request模組缺陷:不能執行js 和css **
2、獲取響應內容
如果伺服器能正常響應,則會得到乙個response
3、解析內容
解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等
解析json資料:json模組
解析二進位制資料:以wb的方式寫入檔案
4、儲存資料
資料庫(mysql,mongdb、redis)
檔案三、、 request
1、請求方式:
2、請求的url
url編碼
3、請求頭
4、請求體
請求體總結爬蟲流程:
網際網路簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html、js、css**返回給瀏覽器,這些**經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前;
一、什麼是爬蟲
網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是乙隻小蜘蛛,沿著網路抓取自己的獵物(資料)
二、爬蟲的基本流程:
使用者獲取網路資料的方式:
方式2:模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中
爬蟲要做的就是方式2;
爬蟲過程
1、發起請求
使用http庫向目標站點發起請求,即傳送乙個request
request包含:請求頭、請求體等
request模組缺陷:不能執行js 和css **
2、獲取響應內容
如果伺服器能正常響應,則會得到乙個response
3、解析內容
解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等
解析json資料:json模組
解析二進位制資料:以wb的方式寫入檔案
4、儲存資料
資料庫(mysql,mongdb、redis)
檔案三、、 request
1、請求方式:
常見的請求方式:get / post
2、請求的url
url編碼
網頁的載入過程是:
載入乙個網頁,通常都是先載入document文件,
在解析document文件的時候,遇到鏈結,則針對超連結發起請求
3、請求頭
user-agent:請求頭中如果沒有user-agent客戶端配置,服務端可能將你當做乙個非法使用者host;
cookies:cookie用來儲存登入資訊
請求頭需要注意的引數:
(2)user-agent:訪問的瀏覽器(要加上否則會被當成爬蟲程式)
(3)cookie:請求頭注意攜帶
4、請求體
請求體如果是get方式,請求體沒有內容 (get請求的請求體放在 url後面引數中,直接能看到)
如果是post方式,請求體是format data
ps:1、登入視窗,檔案上傳等,資訊都會被附加到請求體內
2、登入,輸入錯誤的使用者名稱密碼,然後提交,就可以看到post,正確登入後頁面通常會跳轉,無法捕捉到post
總結爬蟲流程:
爬取—>解析—>儲存
Python 爬蟲介紹
1.python 爬蟲介紹 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。url管理器 包括待爬取的url位址和已爬取的url位址,防止重複抓取url和迴圈抓取url,實現url管理器主要用三種方式,通過記憶體 資料庫 快取資料庫來實現。網頁解析器 將乙個網頁字串進行解...
python爬蟲學習 01爬蟲介紹
前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...
Python 網路爬蟲介紹
在隨著大資料時代的到來,網路爬蟲在網際網路中的地位也越來越重要。而網際網路中的資料是海量存在的,那麼我們如何自動高效地獲取網際網路中我們感興趣的資訊並為我們所用就成了乙個重要的問題,而爬蟲技術就是為了解決這些問題而產生的。網路爬蟲 網路爬蟲是一種按照一定規則,自動抓取全球資訊網資訊的程式或指令碼。簡...