2023年11月1日
no comments
article
爬蟲,顧名思義,就是在網際網路上爬行的程式,能抓取內容,利用正規表示式匹配後,則能找到想要的內容。
import urllib2
response = urllib2.urlopen("")
print response.read() #response是乙個物件,具有read()方法
推薦是先構造乙個request請求,再用urllib2.urlopen()函式響應請求
import urllib2
resquest = urllib2.request("")
response = urllib2.urlopen(request)
#先構造乙個請求,再響應請求,邏輯清晰
再者,有時候有些**需要提交資料,所以可以有。先提交資料再,響應請求。
需要提交的資料values*****=》values經過編碼*****》提交給**伺服器===》響應
#!/usr/bin/python
# -*- encoding:utf-8 -*-
import urllib
import urllib2
values =
postdata = urllib.urlencode(values)
url = ""
request = urllib2.request(url,postdata)
response = urllib2.urlopen(request)
print response.read()
我們引入了urllib庫,現在我們模擬登陸csdn,當然上述**可能登陸不進去,因為還要做一些設定頭部header的工作,或者還有一些引數 沒有設定全,還沒有提及到在此就不寫上去了,在此只是說明登入的原理。我們需要定義乙個字典,名字為values,引數我設定了username和 password,下面利用urllib的urlencode方法將字典編碼,命名為data,構建request時傳入兩個引數,url和data,運 行程式,即可實現登陸,返回的便是登陸後呈現的頁面內容。當然你可以自己搭建乙個伺服器來測試一下。接著是get方法
import urllib
import urllib2
values={}
values['username'] = "[email protected]"
values['password']="***x"
data = urllib.urlencode(values)
url = ""
geturl = url + "?"+data
request = urllib2.request(geturl)
response = urllib2.urlopen(request)
print response.read()
categories:python, 爬蟲
電子郵件位址不會被公開。 必填項已用*標註
姓名 *
電子郵件 *
站點 您可以使用這些html標籤和屬性:
Magical爬蟲 學習 1
最開始了解python的時候就有聽說爬蟲,感覺好神奇!學完pyhton基礎些的知識後就在想要繼續學點什麼,就這個啦 先在網上找了很多關於爬蟲的東西瞅了瞅,又看到了這個python實戰 一周學會爬取網頁!完整課程是四周的,要交些學費,我準備先拿免費教程上上手 嘿嘿 是網易雲課堂上的課程,講的真的很好,...
爬蟲學習筆記1
目錄通過程式設計向網路伺服器請求資料 html表單 然後解析html,提取出自己想要的資料。哇 為何有種相見恨晚的趕腳?基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn....
python爬蟲 學習1
1 import requests 2from bs4 import beautifulsoup 3import bs44 defgethtmltext url 獲取html內容,利用try和except框架可以丟擲異常 5try 6 r requests.get url,timeout 30 獲取...