python3爬蟲學習(一)

2021-08-09 23:44:35 字數 633 閱讀 3367

剛簽完offer沒事幹,之前斷斷續續學過一點爬蟲,又想著再次學習一下,希望這次能堅持下來,好好的學習。

爬蟲——顧名思義,在整個網路系統中,像蜘蛛一樣,爬啊爬啊,每到乙個節點,就記錄該節點的資料,以及是否訪問過。所謂的節點,在網路中就是我們常說的**。整個爬蟲的過程就類似於廣度優先搜尋(bfs)乙個網路。

**實現(一)

#encoding:utf-8

import urllib.request

import urllib

data={}

data['wd']='美女' #可以變為'word'

url = ""

url_values=urllib.parse.urlencode(data) //將data轉為url字串,可以單獨列印出來看下效果

full_url=url+url_values

data = urllib.request.urlopen(full_url).read() //開啟乙個網頁,可以對照瀏覽器的位址列

data = data.decode('utf-8') //將讀取到的頁面內容解碼為'utf-8'

print(data)

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

Python3爬蟲入門 一

python3爬蟲入門 在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的 可見即可爬 技術上 違法的 擦邊球 一 url 專業一些的叫法是統一資源定位符 uniform resource...

Python 3 爬蟲(一) 簡單的爬蟲

url 組成部分 protocol hostname port path protocol 協議 hostname port 主機名,埠名為可選引數 path 主機資源的具體位置網域名稱和伺服器名e.g.www.baidu.com baidu.com 網域名稱 www 伺服器名官方文件 urllib...