在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。
1、,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html、js、css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。
因此,使用者看到的網頁實質是由 html **構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些 html **,實現對、文字等資源的獲取。
2、url的含義
url,即統一資源定位符,也就是我們說的**,統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。
資源的具體位址,如目錄和檔名等。
爬蟲爬取資料時必須要有乙個目標的url才可以獲取資料,因此,它是爬蟲獲取資料的基本依據,準確理解它的含義對爬蟲學習有很大幫助。
3、python 3.x中urllib庫和urilib2庫合併成了urllib庫。。
其中urllib2.urlopen()變成了urllib.request.urlopen()urllib2.request()變成了urllib.request.request()
第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。4、urllib.request.urlopen(url,,
timeout)
._global_default_timeout
import urllib.request as request
importurl=""
data=request.urlopen(url).read()
data=data.decode('utf-8')
print(data)
urllib
import
urllib
.request
data
= data
['word']=
'jecvay notes'
url_values
=urllib
.parse
.urlencode
(data
) url
="/s?"
full_url
=url
+url_values
data
=urllib
.request
.urlopen
(full_url).
read()
data
=data
.decode
('utf-8'
(data
)
6、爬蟲中用到的資料結構
1) 佇列
collection.deque 完成高效佇列任務
from collections import deque
2)集合
set:無序,不包含重複元素的結構
一般用來測試是否已經包含了某種元素,或對眾多元素去重。
Python爬蟲學習
最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...
python爬蟲學習
例如列印當前時間 from datetime import datetime print datetime.now 或者import datetime print datetime.datetime.now html結構 html head body html head a useful page ...
python爬蟲學習
一 beautiful soup庫 1 引用 from bs4 import beautifulsoup from bs4 import beautifulsoup soup beautifulsoup data html.parser 2 beautifulsoup類的基本元素 tag 標籤,最基...