2,簡單的Python爬蟲

2022-02-13 15:24:16 字數 1057 閱讀 7892

前言

環境:作業系統:windows10

ide:   pycharm2018.1

直譯器:python3.6

1,只需短短4行

或許python爬蟲給大家的感覺就是比較高階,比較牛逼的一項技術,而其實呢,它的核心**就只有以下幾行!(至少對於初學者來說,只需要知道它如何使用)

1

import requests #

匯入requests模組。如果報錯,就是沒有安裝該模組;安裝:滑鼠點選紅色部分->【alt+回車】->回車。或在命令列使用pip install requests安裝。

23 url = "

"#4 page = requests.get(url) #

模擬請求(與瀏覽器原理相同)

5print(page.text) #

輸出**的原始碼(html**)

2,對比

一開始大家(包括我自己)接觸比較多的可能是urllib和urllib3;python2用的是urllib和urllib2,在python3中已經沒有urllib2了,所以在看教程的時候一定要看清是python2還是python3。

其實用哪個庫都沒有太大關係,因為他們其實都是在底層實現了http協議,然後自己再把介面封裝以下,理解了原理其實都是差不多的;但是推薦大家使用requests庫(我看很多大牛都推薦這個),他是個第三方庫(不是python自家的),所以需要安裝,**中給出了安裝方法。這個庫給我的感覺就是使用起來更加簡單,可讀性很好,比較符合python的風格,大牛們推薦他可能還有其他原因,有待學習!

3,解析

4,要學什麼

上面是讓大家更好地理解爬蟲,和基本步驟;下面就是初學需要學些什麼東西:

爬蟲三部曲:

3,儲存資訊:把解析後的資訊儲存到本地(先學會儲存到excel表);學習xlwt模組。

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

python2,Python3爬蟲的簡單區別

1,版本安裝 請安裝python3.6.0版本,python2.7.13版本,如果不會的話,請自行查閱安裝版本,網上挺多的.2,pycharm中調整 在file settings project設定中,有乙個選項 project interperter,在右側上方project interperte...

Python 簡單的爬蟲

爬取的資料是 豆瓣電影top250 使用的python庫有 requests bs4的beautifulsoup pandas。通過requests爬取網頁資料,通過beautifulsoup解析網頁資料,通過pandas將資料儲存成excel csv格式。import requests 爬取資料 ...