`p14 requests+正規表示式
import requests
from requests.exceptions import requestexception
def get_one_page(url):
try:
headers =
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
def main():
url = ''
html = get_one_page(url)
print(html)
if __name__ == '__main__':
main()
import requests
from requests.exceptions import requestexception
import re
def get_one_page(url):
try:
headers =
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
def parse_one_page(html):
pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)
.*?releasetime">(.*?)
' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)
items=re.findall(pattern,html)
for item in items:
yield
#print(items)
def main():
url = ''
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__ == '__main__':
main()
import requests
from multiprocessing import pool
import json
from requests.exceptions import requestexception
import re
#獲取網頁資訊
def get_one_page(url):
try:
headers =
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
#抓取網頁中需要的資訊
#圓括號中代表我們需要抓取的資料
#需要熟知re庫中compile和findall方法
def parse_one_page(html):
pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)
.*?releasetime">(.*?)
' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)
items=re.findall(pattern,html)
#建立字典結構使其規則輸出 [x:]的意思是刪除item[y]組中前x個字元
for item in items:
yield
#print(items)
#寫入到檔案
def write_to_file(content):
with open('result.txt', 'a',encoding='utf-8')as f:
f.write(json.dumps(content, ensure_ascii=false)+'\n')
f.close()
#主函式
def main(offset):
url = '?offset='+str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
pool = pool()
pool.map(main,[i*10 for i in range(10)])
python爬蟲學習 requests模組
python中原生的一款基於網路請求的模組,功能非常強大,簡單便捷,效率極高。作用 模擬瀏覽器發請求。如何使用 requests模組的編碼流程 指定url 發起請求 獲取響應資料 持久化儲存 環境安裝 pip install requests 練習 1.爬取搜狗首頁的頁面資料 需求 爬取搜狗首頁資料...
天蛛爬蟲學習筆記 Requests爬蟲例項
定義乙個爬蟲的通用框架 import requests defgethtmltext url 爬蟲通用框架,try 捕捉到錯誤後會執行except的語句 r requests.get url r.raise for status 返回值若為200,則表示正常訪問 繼續執行,否則會返回httperro...
爬蟲筆記 Requests
requests庫是能夠處理獲取url 鏈結 中的資訊的乙個第三方庫 一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫 二 requests下的主...