Python爬蟲隨筆1

問答**做到現在，沒有資料啊，所以需要一些資料；

爬蟲很好玩，早就在知乎看見別人爬各種羞羞**的**，不過一直沒時間，最近感覺自己秋招也沒啥希望，還是做點自己想做的事情吧；

我的python基礎幾乎為0，雖然看過語法，然而都忘了，這玩意不寫，兩天就忘了；所以給點動力，也可以好好工作一把；

一直聽說爬蟲，其實並不是什麼厲害的東西；在b/s架構下，所有資料都是要傳輸到我們客戶端上的，也就是說內容會直接以檔案形式傳輸過來，假設是c/s結構，人家給你本地的客戶端加加密，我們就沒有辦法了，但是html是公共協議，瀏覽器能解析，那我們也行；爬蟲的好處就是可以自動的，不斷瀏覽網頁，並且可以獲取我們想要的內容，比如；

如果我們想讓爬蟲動起來，那就需要模擬乙個瀏覽器，所以首先要構建乙個請求；在請求中我們新增headers，cookie，讓伺服器認為我們是乙個友好的瀏覽器；

requests包傳送門 requests是非常easy的包，他真的是給人用的，看一下教程即可；

# -*- coding:utf-8 -*-  
import requests
#headers
'host': 'pt.cugb.edu.cn',
'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64)'}
#cookie
cookies = 
#url
url=''
#請求r = requests.get(url,cookies,headers = headers,cookies = cookies)
print r.text

# -*- coding:utf-8 -*-
import requests
from pyquery import pyquery
headers = {'user-agent': 'googlebot',
'host': 'www.zhihu.com',
url = ""
request = requests.get(url,headers = headers)
print request.text
q = pyquery(request.text)
each.html()

Python 網路爬蟲隨筆

網路爬蟲之前感覺很難，但是其實看過網上一些詳細的教程之後覺得還是可以掌握一二的最主要的原因我認為可能是因為python的相關工具包做的確實很完善，相當好用。import requests from bs4 import beautifulsoup接下來就可以使用相關函式了 url wbdata r...

python學習隨筆1

python 給我的第一感覺就像是matlab一樣，的書寫非常接近於我們所熟知的數學語言。有的人可能會談及python作為一門指令碼語言的各種優勢，說實話我現在才開始學，並非很了解。但不可置疑的是python對於數值的處理能力很強，而且編寫起來也方便與c語言。安裝好之後，就開始跑乙個最簡單的沒錯就...

爬蟲隨筆三

xpath 特點樹狀結構逐層展開逐層定位尋找獨立節點。類似於使用jquery進行元素搜尋在進行網頁抓取的時候，分析定位html節點是獲取抓取資訊的關鍵，目前我用的是lxml模組用來分析xml文件結構的，當然也能分析html結構利用其lxml.html的xpath對html進行分析，獲取...

Python爬蟲隨筆1

Python 網路爬蟲隨筆

python學習隨筆1

爬蟲隨筆三

相關推薦