前言
環境:作業系統:windows10
ide: pycharm2018.1
直譯器:python3.6
1,只需短短4行
或許python爬蟲給大家的感覺就是比較高階,比較牛逼的一項技術,而其實呢,它的核心**就只有以下幾行!(至少對於初學者來說,只需要知道它如何使用)
1import requests #
匯入requests模組。如果報錯,就是沒有安裝該模組;安裝:滑鼠點選紅色部分->【alt+回車】->回車。或在命令列使用pip install requests安裝。
23 url = "
"#4 page = requests.get(url) #
模擬請求(與瀏覽器原理相同)
5print(page.text) #
輸出**的原始碼(html**)
2,對比
一開始大家(包括我自己)接觸比較多的可能是urllib和urllib3;python2用的是urllib和urllib2,在python3中已經沒有urllib2了,所以在看教程的時候一定要看清是python2還是python3。
其實用哪個庫都沒有太大關係,因為他們其實都是在底層實現了http協議,然後自己再把介面封裝以下,理解了原理其實都是差不多的;但是推薦大家使用requests庫(我看很多大牛都推薦這個),他是個第三方庫(不是python自家的),所以需要安裝,**中給出了安裝方法。這個庫給我的感覺就是使用起來更加簡單,可讀性很好,比較符合python的風格,大牛們推薦他可能還有其他原因,有待學習!
3,解析
4,要學什麼
上面是讓大家更好地理解爬蟲,和基本步驟;下面就是初學需要學些什麼東西:
爬蟲三部曲:
3,儲存資訊:把解析後的資訊儲存到本地(先學會儲存到excel表);學習xlwt模組。
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
python2,Python3爬蟲的簡單區別
1,版本安裝 請安裝python3.6.0版本,python2.7.13版本,如果不會的話,請自行查閱安裝版本,網上挺多的.2,pycharm中調整 在file settings project設定中,有乙個選項 project interperter,在右側上方project interperte...
Python 簡單的爬蟲
爬取的資料是 豆瓣電影top250 使用的python庫有 requests bs4的beautifulsoup pandas。通過requests爬取網頁資料,通過beautifulsoup解析網頁資料,通過pandas將資料儲存成excel csv格式。import requests 爬取資料 ...