靜覓丨崔慶才的個人部落格
copywang/spiders_collection
使用requests庫爬取榜單
分析第1步獲取的html資料,使用正規表示式過濾採集需要的資訊字段,使用生成器儲存字段資料,加上re.s引數連換行符一起輸出
儲存到log檔案中
多執行緒爬取
get請求沒有加user-agent的header,爬蟲被拒絕訪問,新增後解決
期待度的2個數字不顯示
原因:源**中展示的並不是純粹的數字。而是在頁面使用了font-face定義了字符集,並通過unicode去對映展示。簡單介紹下這種新型的web-fongt反爬蟲機制:使用web-font可以從網路載入字型
解決方案
學會了基本的requests操作,請求和分析乙個靜態頁面
學會了基本的正規表示式操作,通過()獲取得到不同的關鍵字,提取得到需要的資訊
基本的寫入文字檔案操作
遇到最簡單的反爬蟲,加入header引數裡面的user-agent即可
最簡單的多執行緒抓取,map函式的使用
字串轉json生成字典,使用json.loads()方法
用生成器儲存演算法,而不是直接生成字典,避免儲存空間浪費,在需要用到資料的時候,使用for迴圈呼叫生成器生成資料即可
儲存到檔案使用中文的時候,open方法中要使用encoding='utf-0',write方法中要使用ensure_ascii=false)
Python 爬取貓眼電影最受期待榜
主要爬取貓眼電影最受期待榜的電影排名 鏈結 名稱 主演 上映時間。思路 1.定義乙個獲取網頁源 的函式 2.定義乙個解析網頁源 的函式 3.定義乙個將解析的資料儲存為本地檔案的函式 4.定義主函式 5.使用多程序爬取。import requests import reimport json from...
爬取貓眼電影排行榜
匯入我們需要的模組 import reimport requests 一 獲取網頁內容 1 宣告目標url,就是爬取的 位址 base url 2 模仿瀏覽器 headers 3 發起請求 response requests.get base url,headers headers 4 接收響應的資...
scrapy爬取貓眼電影排行榜
做爬蟲的人,一定離不開的乙個框架就是scrapy框架,寫小專案的時候可以用requests模組就能得到結果,但是當爬取的資料量大的時候,就一定要用到框架.下面先練練手,用scrapy寫乙個爬取貓眼電影的程式,環境配置和scrapy安裝略過 第一步肯定是終端執行建立爬蟲專案和檔案 1 建立爬蟲專案 2...