使用pip命令進行安裝
那麼現在進行requests的安裝,在終端下輸入sudo pip install requests,提示成功安裝後,在/library/python/2.7/site-packages發現requests資料夾,但是此時你使用 import requests語句會提示「importerror: no module named requests」錯誤,所以此時你需要更改project interpreter 選擇 file -> settings ->project-> single-thread-crawler ->project interpreter
如圖1所示:
那麼以上步驟完成後,python爬蟲所需要的requests構建完成。
兩種方式:
首先我們需要先獲取源**,**如下
#-*-coding:utf-8-*-
import requests
#下面三行是編碼轉換的功能,大家現在不用關心。
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')
print html.text
python的預設編碼檔案是用的ascii碼,你將檔案存成了utf-8也沒用,解決辦法很簡單
觀察原始碼你可以發現規律,每乙個標題的都在」class=」j_th_tit 「>**< a>」之間
既然觀察出如下規律,我們就可以設計出相應的**
#-*-coding:utf8-*-
import requests
import re
#下面三行是編碼轉換的功能,大家現在不用關心。
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')
html.encoding = 'utf-8'
#將編碼轉為utf-8fa防止中文亂碼。
title = re.findall('class="j_th_tit ">(.*?)',html.text,re.s)
for title in title:
print title
執行結果:
在這裡我們講解下re.findall(『class=」j_th_tit 「>(.*?)』,html.text,re.s)
我們使用re.findall來進行資料匹對,根據規律設計出 class=」j _ th_tit 「>(.?)< /a> ,其中(. ?)代表的意思是非貪心演算法:各個排查
Python爬蟲 百度貼吧
get請求 from urllib import request import urllib import time 第一頁 第二頁 2 1 50 第三頁 3 1 50 第四頁 4 1 50 第n頁 n 1 50 推測第一頁 headers 根據url傳送請求,獲取伺服器響應檔案 defloadpa...
python百度貼吧爬蟲
coding utf 8 coding utf 8 import urllib import urllib2 import reimport thread import time class bdtb def init self,baseurl,seelz self.baseurl baseurl ...
百度貼吧爬蟲
encoding utf 8 import urllib.request import urllib.parse import time import random def load page url 通過url來獲取網頁內容jfa param url 待獲取的頁面 return url對應的網頁內...