需求:
爬取體育彩票高頻遊戲-北京11選5的開獎結果
實現計畫:
使用scrapy從網頁上爬取
實現步驟:
1、準備乙個開發測試環境,筆者使用的是:
1
2
3
1
)ubuntu16.
04
2
)python
2.7
.
12
3
)scrapy
1.2
.
0
2、建立乙個scrapy工程:
scrapy startproject elevenpfivespider結果如下:
整個專案的目錄結構如下(紅色圈中範圍,其他是後續新增的):
3、定義item
item是儲存爬取到的資料的容器,筆者將需要抓取的資料結構放入到這裡。其中關鍵字段為獎期、開獎號碼(實際上,後來發現發現是沒有必要的,因為筆者直接將抓取的資料存入到資料庫中,建立的資料容器基本沒怎麼用),實現**如下:
在spiders資料夾下建立爬取資料的類,包含了初始url,如何跟進網頁中的鏈結以及如何分析頁面中的內容,實現**如下:
說明:a、提取資料項需要使用到selectors選擇器,它使用了一種基於xpath和css表示式的機制。具體的使用方法,請參考:
scrapy入門教程
scrapy文件
b、爬取的**使用了加密技術,需要進行解密操作。留心的讀者可以檢視它的加密機制其實特別easy,只需要建立特定的解密字典即可;
5、執行結果:
python 爬取大樂透開獎結果
coding utf 8 下面中文注釋不支援 所以開頭加 coding utf 8 獲取近期大樂透開獎結果,並給出自己猜中的個數 import requests 這個api能夠免費得到近期開獎結果,url裡的 20代表獲取近20期的開獎資訊 url req requests.get url ret ...
使用爬蟲獲取彩票開獎結果
把彩票看作乙個概率遊戲,需要收集足夠多期的開獎資訊來作為分析物件。為了避免每次都手工輸入資料,所以想辦法用爬蟲到網路上獲取最新一期開獎資料並儲存起來。很簡單,分成三個部分 1 定時任務 2 網頁分析 3 儲存資料1 定時任務 以雙色球為例,每週2 4 7晚21 30公布中獎號碼,因此就啟動乙個定時任...
爬取雙色球開獎
爬取雙色球開獎資訊 實驗目的 了解http.cookiejar和cookie,了解如何獲取瀏覽器的header。實驗要求 掌握如何獲取瀏覽器headers的方法。本實驗需要外網連線。實驗原理 http.cookiejar簡介 有的 特別像社交 需要登陸才能抓取到 的資料,那麼光模擬瀏覽器請求 內容是...