近期迷戀上了python,不外乎「人生短暫,我用python"。python簡潔,優雅,易懂。大資料分析的前期自然也是少不了資料收集的,做一些爬蟲爬取資料是少不了的。主要學習資料:兩**慕課網和極客學院,兩崔慶才和廖雪峰。程式設計工具從notepad 到eclipse for python再到pycharm,衷心推薦pycharm,功能強大,安裝簡單!
學習python爬蟲主要有以下知識點:
1、python語言入門和基礎,慕課網和極客學院有完整課程,講練結合;
2、python爬蟲入門,推薦極客學院kingname的系列課程;
3、乙個完整爬蟲主要是url管理、獲取網頁**、解析網頁和輸出等四部分,最核心的就是網頁獲取和解析,獲取有urllib、urllib2、requests等,涉及get和post方式,headers和coocies,模擬登陸等;解析有正規表示式、xpath(lmxl)、bs4等;
4、框架爬蟲scrapy,涉及儲存資料庫redis/mongedb等;
6、還有一些其他神器,後面待續。
除錯**無疑是比較痛苦的,常常不得要領,缺乏基礎,只能一點點探索,搜尋,詢問,能有所進,就手舞足蹈,貴在堅持!
Python爬蟲筆記 一 爬蟲基本入門
最近在做乙個專案,這個專案需要使用網路爬蟲從特定 上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。一 何謂網路爬蟲 網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的...
Python入門學習筆記(網路爬蟲)
python 如何訪問網際網路?python把url和lib組合成乙個模組urllib在idle裡面可以搜尋 可以看到urllib有四個模組 測試使用urllib.request模組 import urllib.request response urllib.request.urlopen html...
Python爬蟲入門
今天看了菜鳥教程的python教程,準備做個小作業寫個爬蟲程式。其中主要涉及到基本語法 正規表示式 urllib和re兩個模組。import urllib 載入模組 import re defgethtml url page urllib.urlopen url html page.read ret...