問答**做到現在,沒有資料啊,所以需要一些資料;
爬蟲很好玩,早就在知乎看見別人爬各種羞羞**的**,不過一直沒時間,最近感覺自己秋招也沒啥希望,還是做點自己想做的事情吧;
我的python基礎幾乎為0,雖然看過語法,然而都忘了,這玩意不寫,兩天就忘了;所以給點動力,也可以好好工作一把;
一直聽說爬蟲,其實並不是什麼厲害的東西;在b/s架構下,所有資料都是要傳輸到我們客戶端上的,也就是說內容會直接以檔案形式傳輸過來,假設是c/s結構,人家給你本地的客戶端加加密,我們就沒有辦法了,但是html是公共協議,瀏覽器能解析,那我們也行;爬蟲的好處就是可以自動的,不斷瀏覽網頁,並且可以獲取我們想要的內容,比如;
如果我們想讓爬蟲動起來,那就需要模擬乙個瀏覽器,所以首先要構建乙個請求;在請求中我們新增headers,cookie,讓伺服器認為我們是乙個友好的瀏覽器;
requests包 傳送門 requests是非常easy的包,他真的是給人用的,看一下教程即可;
# -*- coding:utf-8 -*-
import requests
#headers
'host': 'pt.cugb.edu.cn',
'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64)'}
#cookie
cookies =
#url
url=''
#請求r = requests.get(url,cookies,headers = headers,cookies = cookies)
print r.text
# -*- coding:utf-8 -*-
import requests
from pyquery import pyquery
headers = {'user-agent': 'googlebot',
'host': 'www.zhihu.com',
url = ""
request = requests.get(url,headers = headers)
print request.text
q = pyquery(request.text)
each.html()
Python 網路爬蟲隨筆
網路爬蟲之前感覺很難,但是其實看過網上一些詳細的教程之後覺得還是可以掌握一二的 最主要的原因我認為可能是因為python的相關工具包做的確實很完善,相當好用。import requests from bs4 import beautifulsoup接下來就可以使用相關函式了 url wbdata r...
python學習隨筆1
python 給我的第一感覺就像是matlab一樣,的書寫非常接近於我們所熟知的數學語言。有的人可能會談及python作為一門指令碼語言的各種優勢,說實話我現在才開始學,並非很了解。但不可置疑的是python對於數值的處理能力很強,而且編寫起來也方便與c語言。安裝好之後,就開始跑乙個最簡單的 沒錯就...
爬蟲隨筆三
xpath 特點 樹狀結構 逐層展開 逐層定位 尋找獨立節點。類似於使用jquery進行元素搜尋 在進行網頁抓取的時候,分析定位html節點是獲取抓取資訊的關鍵,目前我用的是lxml模組 用來分析xml文件結構的,當然也能分析html結構 利用其lxml.html的xpath對html進行分析,獲取...