Scrapy爬取彩票開獎結果的實現

2021-09-20 18:07:28 字數 1240 閱讀 1075

需求:

爬取體育彩票高頻遊戲-北京11選5的開獎結果

實現計畫:

使用scrapy從網頁上爬取

實現步驟:

1、準備乙個開發測試環境,筆者使用的是:

1

2

3

1)ubuntu16.04

2)python2.7.12

3)scrapy1.2.0

2、建立乙個scrapy工程:  

scrapy startproject elevenpfivespider
結果如下:

整個專案的目錄結構如下(紅色圈中範圍,其他是後續新增的):

3、定義item

item是儲存爬取到的資料的容器,筆者將需要抓取的資料結構放入到這裡。其中關鍵字段為獎期、開獎號碼(實際上,後來發現發現是沒有必要的,因為筆者直接將抓取的資料存入到資料庫中,建立的資料容器基本沒怎麼用),實現**如下:

在spiders資料夾下建立爬取資料的類,包含了初始url,如何跟進網頁中的鏈結以及如何分析頁面中的內容,實現**如下:

說明:a、提取資料項需要使用到selectors選擇器,它使用了一種基於xpath和css表示式的機制。具體的使用方法,請參考:

scrapy入門教程

scrapy文件

b、爬取的**使用了加密技術,需要進行解密操作。留心的讀者可以檢視它的加密機制其實特別easy,只需要建立特定的解密字典即可;

5、執行結果:

python 爬取大樂透開獎結果

coding utf 8 下面中文注釋不支援 所以開頭加 coding utf 8 獲取近期大樂透開獎結果,並給出自己猜中的個數 import requests 這個api能夠免費得到近期開獎結果,url裡的 20代表獲取近20期的開獎資訊 url req requests.get url ret ...

使用爬蟲獲取彩票開獎結果

把彩票看作乙個概率遊戲,需要收集足夠多期的開獎資訊來作為分析物件。為了避免每次都手工輸入資料,所以想辦法用爬蟲到網路上獲取最新一期開獎資料並儲存起來。很簡單,分成三個部分 1 定時任務 2 網頁分析 3 儲存資料1 定時任務 以雙色球為例,每週2 4 7晚21 30公布中獎號碼,因此就啟動乙個定時任...

爬取雙色球開獎

爬取雙色球開獎資訊 實驗目的 了解http.cookiejar和cookie,了解如何獲取瀏覽器的header。實驗要求 掌握如何獲取瀏覽器headers的方法。本實驗需要外網連線。實驗原理 http.cookiejar簡介 有的 特別像社交 需要登陸才能抓取到 的資料,那麼光模擬瀏覽器請求 內容是...