python爬蟲好久沒用都生疏了,剛好朋友要排列三資料,就用這個練手,
去體彩官網
不閒聊,直接上**
import requests
from requests.exceptions import requestexception
import csv
from bs4 import beautifulsoup as bs
def write_to_file(item):
file_name = 『pls.csv』
# 『a』為追加模式(新增)
# utf_8_sig格式匯出csv不亂碼
with open(file_name, 『a』, encoding=『utf_8_sig』, newline=』』) as f:
fieldnames = [『期號』, 『中獎號碼』, 『開獎日期』]
w = csv.dictwriter(f, fieldnames=fieldnames)
w.writerow(item)
url = "" + str(i) + ".jspx?_ltype=pls"
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print('return code is %s' % (str(response.status_code)))
return none
except requestexception:
print('訪問異常')
def parse_one_page(get_html):
pls = {}
data = bs(get_html, 『lxml』)
data = data.find(『tbody』).find_all(『tr』)
for content in data:
all_tr = content.find_all('td')
pls['期號'] = all_tr[0].get_text()
pls['中獎號碼'] = all_tr[1].get_text()
pls['開獎日期'] = all_tr[10].get_text()
write_to_file(pls)
def crawler():
for i in range(1, 275):
parse_one_page(get_page(i))
ifname== 『main』:
crawler()
測試結果,一條不差
我按朋友的要求,只取了期號,中獎號碼,開獎日期
有需要其他列的資料,自己修改下就能用
利用Python抓取和解析網頁 3
對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器或者web瀏覽器就能夠解析和處理html文件。三 從html文件中提取文字 處理html文件的時候,我們常常需要從其...
Python3 urllib抓取指定URL的內容
python爬蟲主要使用的是urllib模組,python2.x版本是urllib2,很多部落格裡面的示例都是使用urllib2的,因為我使用的是python3.3.2,所以在文件裡面沒有urllib2這個模組,import的時候會報錯,找不到該模組,應該是已經將他們整合在一起了。下面是乙個簡單的 ...
python3 urllib爬蟲抓取記錄
import re import os from urllib import request 抓取整個頁面下來 data request.urlopen read decode 正則提取所有文章標題,ruler re.compile re.s match ruler.findall data 把抓取...