入門python爬蟲

網上找了好多關於爬蟲的例子，不過還是對新手不是很友好的，這裡記錄一下自己弄爬蟲的一些過程。

這裡是我想吐槽的，有很多例子它都是以乙個特定的**為例子的，我們如果按照它的步驟一步一步走下去我們是可以成功的，不過這對於我們學習爬蟲來說並沒有什麼較多的幫助的。

1.掌握html

我覺得這是學會爬蟲必須要掌握的，爬蟲其實就是模擬瀏覽器的各種請求，獲得到我們想要的資料，而在對於我們來說最容易獲得的就是頁面的html內容。通過檢查我們可以檢視到文章的整體結構，這對於我們後續的資料篩選是非常有幫助的。

2.掌握通過瀏覽器捕獲資料

通過右鍵檢查進入到瀏覽器network模組，觀察瀏覽器傳送的xhr，js，doc請求其中我們想要的檔案基本都在這些請求中可以捕獲到，找對我們想要的請求後就可以在python中進行模擬。

3.掌握headers以及get，post方法

這些內容我們可以在檢查中獲得，當然如果能進一步了解就更好了

4.掌握python中關於爬蟲的類庫

這對將來提高你的開發效率是非常有幫助的，入門階段不推薦過多使用

掌握上面的這些爬取一些簡單的東西都是沒有問題的，不過對於一些需要登入等操作的**內容的爬取，則需要對cookie等內容有一定了解。

1.通過檢查網頁，檢測請求獲得我們需要模擬的介面2.通過python模擬請求3.處理獲得的資料

這裡只是簡單將其爬取之後轉成了html儲存

爬取思路：**的爬取一般比較簡單，我們可以直接在html文件中獲得我們想要的資料，這樣就使得我們不要在通過複雜的network模組去找到我們需要資料的介面，我們只需要通過get方法請求瀏覽器位址，通過

resp.content.decode('gbk')

import requests  # 匯入requests庫，需要安裝
from urllib import parse
import re
# 模擬成瀏覽器訪問的頭
'accept': 'text/html',
'accept-language': 'zh-cn,zh;q=0.9'}
mianurl = ""
def getpage(mianurl,nexturl,i,oldpage):
jump = 0
try:
resp = requests.get(mianurl+nexturl, headers=headers)
jump = 0
except:
jump = 1
if jump == 0:
# 獲取到當前頁面內容
htmltext = resp.content.decode('gbk')
pageurl = "青春豬頭少年不會夢到兔女郎學姊"+str(i)+".html"
nextpages = "./青春豬頭少年不會夢到兔女郎學姊"+str(i+1)+".html"
uppage = "./青春豬頭少年不會夢到兔女郎學姊"+str(i-1)+".html"
try:
print("上：" + oldpage)
oldpage = nexturl
breaks = 0
try:
nextpage = re.search(r'"[/a-za-z0-9.=\s_]*"', nextpage.group())
nexturl = nextpage.group()[1:-1]
print("下：" + nexturl)
except:
breaks = 1
fo = open("./books/book1/"+pageurl, "w+", encoding="gbk")
fo.write(htmltext)
fo.close()
print("繼續"+str(i)+"："+pageurl)
i += 1
if breaks != 1:
getpage(mianurl,nexturl,i,oldpage)
else:
print("success")
except exception as e:
print(str(e)+"結束")
else:
print("請求異常重新請求"+str(i))
getpage(mianurl, nexturl, i, oldpage)
nowpage = "/book/671/24853764.html"
getpage(mianurl,nowpage,352,"nooldpage")

入門python爬蟲

Python爬蟲入門

python爬蟲入門

python爬蟲入門

入門python爬蟲

Python爬蟲入門

python爬蟲入門

python爬蟲入門

相關推薦