要學會使用python爬取網頁資訊無外乎以下幾點內容:
1、要會python
2、知道網頁資訊如何呈現
3、了解網頁資訊如何產生
4、學會如何提取網頁資訊
第一步python是工具,所以你必須熟練掌握它,要掌握到什麼程度呢?如果你只想寫一寫簡單的爬蟲,不要炫技不考慮爬蟲效率,你只需要掌握:
你甚至不需要掌握函式、非同步、多執行緒、多程序,當然如果想要提高自己小爬蟲的爬蟲效率,提高資料的精確性,那麼記住最好的方式是去系統的學習一遍python,去哪兒學習?python教程
假設你已經熟悉了最基礎的python知識,那麼進入第二步:知道網頁資訊如何呈現?你首先要知道所需要抓取的資料是怎樣的呈現的,就像是你想要學做一幅畫,在開始之前你要知道這幅畫是用什麼畫出來的,鉛筆還是水彩筆...等等,可能種類是多樣的,但是放到網頁資訊來說這兒只有兩種呈現方式:
1、html (html 簡介)
2、json (json 簡介)
html是用來描述網頁的一種語言
json是一種輕量級的資料交換格式
假設你現在知道了資料是由html和json呈現出來的,那麼我們緊接著第三步:資料怎麼來?資料當然是從伺服器反饋給你的,為什麼要反饋給你?因為你發出了請求。
「hi~ ,伺服器我要這個資源」
「正在傳輸中...」
「已經收到html或者json格式的資料」
這是什麼請求?要搞清楚這一點你需要了解一下http的基礎知識,更加精確來說你需要去了解get和post是什麼,區別是什麼。也許你可以看看這個:**http中get與post的區別 - hyddd -
很高興你使用的是python,那麼你只需要去掌握好快速上手 - requests 2.10.0 文件,requests可以幫你模擬發出get和post請求,這真是太棒了。
飯菜已經備好,兩菜一湯美味佳餚,下面就是好好享受了。現在我們已經拿到了資料,我們需要在這些錯亂的資料中提取我們需要的資料,這時候我們有兩個選擇。
python正規表示式指南 ,再大再亂的內容,哪怕是大海撈針,只要告訴我這個針的樣子我都能從茫茫大海中撈出來,強大的正規表示式是你提取資料的不二之選。
beautiful soup 4.2.0 文件,或許我們有更好的選擇,我們把原始資料和我們想要的資料的樣子扔個這個beautifulsoup,然後讓它幫我們去尋找,這也是乙個不錯的方案,但是論靈活性,第二招還是略遜於第一招。
最厲害的招式莫過於結合第一招和第二招了,打破天下無敵手。
基礎知識我都會,可是我還是寫不了乙個爬蟲啊!
客觀別急,這還沒完。
以下這些專案,你拿來學習學習練練手。
兩個教學專案你值得擁有:
還不夠?這兒有很多:
如何學習python爬蟲[入門篇]? - 知乎專欄
知乎--python學習路徑及練手專案合集
關於Python異常處理,你需要了解的知識點
當python檢測到乙個錯誤時,直譯器就無法繼續執行了,並且給出乙個錯誤提示。比如寫入檔案的時候,磁碟滿了,寫不進去了,或者從網路抓取資料,網路突然中斷。這時候,就需要捕獲處理它,否則程式會終止執行。使用try except finally語句進行捕獲操作,並告訴python發生異常時如何處理。首先...
學習Python3需要了解內建函式嗎?
需要!如果不了解內建函式,很可能實現相同的功能我們需要重複造輪子,這是不可取的,就我個人的開發經驗來說,剛學python的時候,想比較三個返回值的最小值,自己寫了一堆for迴圈,而min這個函式就是返回最小值。那麼,如何知道內建函式有哪些呢?通過 builtins 可以檢視python內建的一些類 ...
001python需要了解的計算機核心基礎
二 計算機組成原理 三 作業系統概述 語言就是人與人之間溝通的介質 程式語言就是人與計算機之間溝通的介質 在程式設計的世界裡,計算機就好比人的手下,方便自己 程式設計就是人把自己想命令計算機幹的事用程式語言翻譯出來並寫到檔案裡 這一系列的檔案就是程式 程式設計的目的就是為了讓計算機按照人類的思維邏輯...