(個人經驗,僅供參考,錯誤之處,敬請諒解)
模組:
requests,re
使用示例:
這是闖關的簡單案例
#encoding=utf-8
import requests
import re
url_start = "";
r = requests.get(url_start);
number = re.findall('.*?(\d).*',r.text)
while number:
r = requests.get(url_start+'/'+number[0])
number = re.findall('.*?(\d).*',r.text)
print(number)
拓展輔助模組:
使用示例:
soup.title //直接使用標籤名
content = soup.find_all(name='x',attrs=)多執行緒模版:
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import sys
from queue import queue
import threading
from bs4 import beautifulsoup as bs
import re
headers =
class myspider(threading.thread):
def __init__(self, que):
threading.thread.__init__(self)
self._que = que
def run(self):
while not self._que.empty():
url = self._que.get()
try:
self.spider(url)
except exception as e:
print(e)
pass
def spider(self,url):
r = requests.get(url=url,headers=headers)
soup = bs(r.content,'lxml')
...... //對內容進行處理
thread_count = 4 //執行緒數
for i in range(thread_count):
for t in threads:
t.start()
for t in threads:
t.join()
if __name__ == '__main__':
main()
總結:
為了提高效率,往往爬蟲需要結合多執行緒進行使用,所以總結了以上的各類模版,便於使用。
python爬蟲總結
import requests import os def getmanypages keyword,pages params for i in range 30,30 pages 30,30 從30開始,到30 pages結束,以30為跳躍 tn resultjson com ipn rj ct ...
Python爬蟲總結
python爬蟲的原理 1通過urlopen 來獲取到url頁面,這個過程可以加 2這個頁面上都是字串,所以我們而通過字串查詢的方法來獲取到目標字串,用到了正則來匹配目標re.findall pattern,string 或者查詢頁面的字串,bs4.beautifulsoup html 可以將url...
Python爬蟲總結(一)入門
很多做資料分析的同學會抱怨沒有實際資料,感覺巧婦難為無公尺之炊,而火車頭採集器一類的軟體很難完成一些定製性很強的資料採集任務,這時候就需要自己編寫爬蟲來採集資料了。python是目前做爬蟲比較流行的工具。爬蟲一般通過傳送http https請求,從伺服器獲取資料,進一步解析獲取的資料,最後得到有用的...