由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。。。
1。連線到要抓取的某網 ,注意import urllib,比如這個樣子
def gethtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
這樣基本就能把這個網頁搞下來了,但是不是所有**這麼搞都能搞下來,所以有的**需要再寫乙個標頭檔案的東西,(看到一句話這麼說:標頭檔案(這種工具很多瀏覽器是自帶的),我用的是firefox的firebug外掛程式。)還不知道啥意思,嗯 以後要看下。
2。然後,當然我不是要這個網頁裡的所有東西,所以要正則匹配(import re),還有可以用beautifulsoup這個玩藝(也還沒開始研究。。。)
def getimg(html):
reg = r'()'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
比如上面這個就是抓取網頁中所有標籤下的內容,正則匹配是個要熟能生巧的東西,要慢慢練 大概解釋一下 r『() 意思是python裡消除我也不知道是什麼的東西,反正加了後正規表示式可以比較正常的用了,然後(.*)是代表任何東西,目前還有個小問題是:怎麼就保留標籤內的東東。
3。再然後,就是把東東存起來了,兩種:存到檔案(我覺得應該很容易。。肯定明白思路);存到資料庫(沒接觸過,要看。。。)
感覺這是篇廢話~嗯 期待不久的將來研究出來點心得。。還要做畢設!ohno
第一次爬蟲
from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...
記第一次爬蟲
出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...
記第一次爬蟲
在學習爬蟲的過程中,我首先進行的是對豆瓣top250的爬取,步驟可分為如下幾步 第一步 抓包 url 第二步 請求url 第三步 解析,提取出我需要的資訊 第四步 存入檔案 首先我對豆瓣的網頁進行了分析,開啟要抓取的網頁,f12 f5,這樣你就可以看到網頁原始碼了,進入到network,找到要抓取的...