python3爬蟲學習（一）

剛簽完offer沒事幹，之前斷斷續續學過一點爬蟲，又想著再次學習一下，希望這次能堅持下來，好好的學習。

爬蟲——顧名思義，在整個網路系統中，像蜘蛛一樣，爬啊爬啊，每到乙個節點，就記錄該節點的資料，以及是否訪問過。所謂的節點，在網路中就是我們常說的**。整個爬蟲的過程就類似於廣度優先搜尋（bfs）乙個網路。

**實現（一）

#encoding:utf-8
import urllib.request
import urllib
data={}
data['wd']='美女'    #可以變為'word'
url = ""
url_values=urllib.parse.urlencode(data)     //將data轉為url字串，可以單獨列印出來看下效果
full_url=url+url_values
data = urllib.request.urlopen(full_url).read()    //開啟乙個網頁，可以對照瀏覽器的位址列
data = data.decode('utf-8')   //將讀取到的頁面內容解碼為'utf-8'
print(data)

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

Python3爬蟲入門一

python3爬蟲入門在瀏覽器的位址列輸入url位址，在網頁處右鍵單擊，找到檢查。不同瀏覽器的叫法不同，chrome瀏覽器叫做檢查，firefox瀏覽器叫做檢視元素，但是功能都是相同的可見即可爬技術上違法的擦邊球一 url 專業一些的叫法是統一資源定位符 uniform resource...

Python 3 爬蟲（一）簡單的爬蟲

url 組成部分 protocol hostname port path protocol 協議 hostname port 主機名，埠名為可選引數 path 主機資源的具體位置網域名稱和伺服器名e.g.www.baidu.com baidu.com 網域名稱 www 伺服器名官方文件 urllib...

python3爬蟲學習（一）

python3爬蟲學習筆記

Python3爬蟲入門 一

Python 3 爬蟲（一） 簡單的爬蟲

相關推薦

Python3爬蟲入門一

Python 3 爬蟲（一）簡單的爬蟲