Python爬蟲入門一之綜述

首先爬蟲是什麼？

網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。

根據我的經驗，要學習python爬蟲，我們要學習的共有以下幾點：

首先，我們要用python寫爬蟲，肯定要了解python的基礎吧，萬丈高樓平地起，不能忘啦那地基，哈哈，那麼我就分享一下自己曾經看過的一些python教程，小夥伴們可以作為參考。

曾經有一些基礎的語法是在慕課網上看的，上面附有一些練習，學習完之後可以作為練習，感覺效果還是蠻不錯的，不過稍微遺憾的是內容基本上都是最基礎的，入門開始的話，就這個吧

學習**：慕課網python教程

後來，我發現了廖老師的python教程，講的那是非常通俗易懂哪，感覺也是非常不錯，大家如果想進一步了解python就看一下這個吧。

學習**：廖雪峰python教程

還有乙個我看過的，簡明python教程，感覺講的也不錯

學習**：簡明python教程

學習**：汪海的實驗室

urllib和urllib2庫是學習python爬蟲最基本的庫，利用這個庫我們可以得到網頁的內容，並對內容用正規表示式提取分析，得到我們想要的結果。這個在學習過程中我會和大家分享的。

python正規表示式是一種用來匹配字串的強有力的**。它的設計思想是用一種描述性的語言來給字串定義乙個規則，凡是符合規則的字串，我們就認為它「匹配」了，否則，該字串就是不合法的。這個在後面的博文會分享的。

如果你是乙個python高手，基本的爬蟲知識都已經掌握了，那麼就尋覓一下python框架吧，我選擇的框架是scrapy框架。這個框架有什麼強大的功能呢？下面是它的官方介紹：

官方文件：

等我們掌握了基礎的知識，再用這個 scrapy 框架吧！

扯了這麼多，好像沒多少有用的東西額，那就不扯啦！

下面開始我們正式進入爬蟲之旅吧！

Python爬蟲入門一之綜述

python版本 2.7，python 3請另尋其他博文。首先爬蟲是什麼？網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。根據我的經驗，要學習python爬蟲，我們要學習的共有以下幾點首先，我們要用...

Python爬蟲入門一之綜述

python版本 2.7，python 3請另尋其他博文。首先爬蟲是什麼？網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。根據我的經驗，要學習python爬蟲，我們要學習的共有以下幾點 python基...

轉 Python爬蟲入門一之綜述

靜覓 python爬蟲入門一之綜述首先爬蟲是什麼？網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼。要學習python爬蟲，我們要學習的共有以下幾點首先，我們要用python寫爬蟲，肯定要了解pyt...

Python爬蟲入門一之綜述

Python爬蟲入門一之綜述

Python爬蟲入門一之綜述

轉 Python爬蟲入門一之綜述

相關推薦