剛簽完offer沒事幹,之前斷斷續續學過一點爬蟲,又想著再次學習一下,希望這次能堅持下來,好好的學習。
爬蟲——顧名思義,在整個網路系統中,像蜘蛛一樣,爬啊爬啊,每到乙個節點,就記錄該節點的資料,以及是否訪問過。所謂的節點,在網路中就是我們常說的**。整個爬蟲的過程就類似於廣度優先搜尋(bfs)乙個網路。
**實現(一)
#encoding:utf-8
import urllib.request
import urllib
data={}
data['wd']='美女' #可以變為'word'
url = ""
url_values=urllib.parse.urlencode(data) //將data轉為url字串,可以單獨列印出來看下效果
full_url=url+url_values
data = urllib.request.urlopen(full_url).read() //開啟乙個網頁,可以對照瀏覽器的位址列
data = data.decode('utf-8') //將讀取到的頁面內容解碼為'utf-8'
print(data)
python3爬蟲學習筆記
爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...
Python3爬蟲入門 一
python3爬蟲入門 在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的 可見即可爬 技術上 違法的 擦邊球 一 url 專業一些的叫法是統一資源定位符 uniform resource...
Python 3 爬蟲(一) 簡單的爬蟲
url 組成部分 protocol hostname port path protocol 協議 hostname port 主機名,埠名為可選引數 path 主機資源的具體位置網域名稱和伺服器名e.g.www.baidu.com baidu.com 網域名稱 www 伺服器名官方文件 urllib...