改了半天,終於按照自己的設想把這東西做出來了,趕快把自己的心得寫下來。
首先上原始碼:
先觀察各網頁間的**規律,構建出**變數,通過for迴圈實現多頁內容的爬取
構建乙個自定義的函式,來爬取我們想要的內容:
開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容,所以觀察網頁源**,用正規表示式提取出對應自己想要的資訊。
之後對使用者id和對應發表的段子內容進行遍歷,將其依次儲存在桌面的txt文件中。
最後執行結束,輸出finishied!
附上最後結果圖:
心得的話:因為是新手,在網頁編碼這塊卡了好長時間。感覺主要難點是怎麼輸出你爬取的資訊(無論是儲存到檔案中還是列印出來),只要是解決了這個,其他我覺得就是水到渠成。
python爬蟲糗事百科
coding utf 8 import urllib2 import re 工具類 class tools object remove n re.compile r n replace br re.compile r remove ele re.compile r re.s rs 引數,要進行替換的...
Python爬蟲 糗事百科
如果沒有這兩個庫 在命令列任意位置下 前提是你已經配置好了環境,這個網上大把,自行google pip install requests,pip install bs4 import beautifulsoup import requests from bs4 import beautifulsou...
爬蟲 糗事百科爬蟲
糗事百科爬蟲 寫這個爬蟲花了我相當相當多的時間,因為總是爬著爬著就看這糗事百科上的段子去了。環境 python 3.6 import csvimport json import random import requests from bs4 import beautifulsoup class qi...