網上找了好多關於爬蟲的例子,不過還是對新手不是很友好的,這裡記錄一下自己弄爬蟲的一些過程。
這裡是我想吐槽的,有很多例子它都是以乙個特定的**為例子的,我們如果按照它的步驟一步一步走下去我們是可以成功的,不過這對於我們學習爬蟲來說並沒有什麼較多的幫助的。
1.掌握html
我覺得這是學會爬蟲必須要掌握的,爬蟲其實就是模擬瀏覽器的各種請求,獲得到我們想要的資料,而在對於我們來說最容易獲得的就是頁面的html內容。通過檢查我們可以檢視到文章的整體結構,這對於我們後續的資料篩選是非常有幫助的。
2.掌握通過瀏覽器捕獲資料
通過右鍵檢查進入到瀏覽器network模組,觀察瀏覽器傳送的xhr,js,doc請求其中我們想要的檔案基本都在這些請求中可以捕獲到,找對我們想要的請求後就可以在python中進行模擬。
3.掌握headers以及get,post方法
這些內容我們可以在檢查中獲得,當然如果能進一步了解就更好了
4.掌握python中關於爬蟲的類庫
這對將來提高你的開發效率是非常有幫助的,入門階段不推薦過多使用
掌握上面的這些爬取一些簡單的東西都是沒有問題的,不過對於一些需要登入等操作的**內容的爬取,則需要對cookie等內容有一定了解。1.通過檢查網頁,檢測請求獲得我們需要模擬的介面2.通過python模擬請求3.處理獲得的資料
這裡只是簡單將其爬取之後轉成了html儲存爬取思路:**的爬取一般比較簡單,我們可以直接在html文件中獲得我們想要的資料,這樣就使得我們不要在通過複雜的network模組去找到我們需要資料的介面,我們只需要通過get方法請求瀏覽器位址,通過
resp.content.decode('gbk')
import requests # 匯入requests庫,需要安裝
from urllib import parse
import re
# 模擬成瀏覽器訪問的頭
'accept': 'text/html',
'accept-language': 'zh-cn,zh;q=0.9'}
mianurl = ""
def getpage(mianurl,nexturl,i,oldpage):
jump = 0
try:
resp = requests.get(mianurl+nexturl, headers=headers)
jump = 0
except:
jump = 1
if jump == 0:
# 獲取到當前頁面內容
htmltext = resp.content.decode('gbk')
pageurl = "青春豬頭少年不會夢到兔女郎學姊"+str(i)+".html"
nextpages = "./青春豬頭少年不會夢到兔女郎學姊"+str(i+1)+".html"
uppage = "./青春豬頭少年不會夢到兔女郎學姊"+str(i-1)+".html"
try:
print("上:" + oldpage)
oldpage = nexturl
breaks = 0
try:
nextpage = re.search(r'"[/a-za-z0-9.=\s_]*"', nextpage.group())
nexturl = nextpage.group()[1:-1]
print("下:" + nexturl)
except:
breaks = 1
fo = open("./books/book1/"+pageurl, "w+", encoding="gbk")
fo.write(htmltext)
fo.close()
print("繼續"+str(i)+":"+pageurl)
i += 1
if breaks != 1:
getpage(mianurl,nexturl,i,oldpage)
else:
print("success")
except exception as e:
print(str(e)+"結束")
else:
print("請求異常重新請求"+str(i))
getpage(mianurl, nexturl, i, oldpage)
nowpage = "/book/671/24853764.html"
getpage(mianurl,nowpage,352,"nooldpage")
Python爬蟲入門
今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...
python爬蟲入門
這幾天閒的無聊想做乙個爬蟲來爬取一些 正經 首先選擇用python作為爬蟲的語言。但是沒有接觸過python怎麼辦呢,只能從頭開始學了。python學習位址這個是廖大神寫的乙個python入門,個人感覺寫的非常不錯,在粗略的學習了一遍之後感覺可以開始我的爬蟲之旅了。目標 抓取中妹子的儲存在本地 接下...
python爬蟲入門
初學者要學會基本的爬蟲 先要安裝包requests requests的安裝 開啟這個 在這個 上面有很多 python 的第三方庫檔案,我們按 ctrl f 搜尋很容易找到 requests 如下圖,我們將第乙個資料夾,也就是 requests 資料夾複製到 python 的安裝目錄下的 lib 目...