最開始了解python的時候就有聽說爬蟲,感覺好神奇!學完pyhton基礎些的知識後就在想要繼續學點什麼,就這個啦~
先在網上找了很多關於爬蟲的東西瞅了瞅,又看到了這個python實戰:一周學會爬取網頁!!
完整課程是四周的,要交些學費,,我準備先拿免費教程上上手~嘿嘿~
是網易雲課堂上的課程,講的真的很好,爬蟲入門應該夠夠的了
一.工具
pycharm
學pyhton的時候挑挑選選定了sublime text3為編輯器,真的很喜歡呢,簡單好用而且配色真的太舒服了!
最開始爬取網頁就用的sublime text3,但是有一次爬出來的網頁中文不顯示,除錯了好久,各種decode,encode
裝了各種包都沒能解決,後來用電腦自帶的ide網頁原始碼
就正常顯示了,狠了狠心,換成了大家推薦的pycharm~
pycharm 也真的像推薦她的人說的一樣,很優秀呢,只有一點,我有小小的不滿,,
在pycharm中你可以按照自己的喜好來設定很多東西,但是她自帶的配色實在是有點那個啥
,,剛從sublime text 跳過來的我真的有點不適應,我就嘗試自己去配置,,,哎~搞得我特痛苦,自己弄得也不是很滿意
最後在網上找到了些資源~
pycharm主題樣式
按照說明匯入即可~裡面的幾個樣式還好些
二.網頁
既然要爬取網頁當然要了解一下網頁相關知識啦,還好假期學了html5,爬蟲上手起來還快了些
學習使用chrome檢視網頁原始碼
學習使用pycharm(或其他編輯器)建立網頁檔案
三.安裝庫
之前大多數python的庫我都是用pip安裝的,網上的教程都很詳細,也可以通過pycharm來安
安裝庫:lxml
安裝庫:beautifilsoup4
安裝庫:requests
這個課程主要的爬蟲任務由這三個庫來提供支援,也還有其他的,之後學到的時候再做記錄~
爬蟲學習(1)
2015年11月1日 no comments article 爬蟲,顧名思義,就是在網際網路上爬行的程式,能抓取內容,利用正規表示式匹配後,則能找到想要的內容。import urllib2 response urllib2.urlopen print response.read response是乙...
爬蟲學習筆記1
目錄通過程式設計向網路伺服器請求資料 html表單 然後解析html,提取出自己想要的資料。哇 為何有種相見恨晚的趕腳?基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn....
python爬蟲 學習1
1 import requests 2from bs4 import beautifulsoup 3import bs44 defgethtmltext url 獲取html內容,利用try和except框架可以丟擲異常 5try 6 r requests.get url,timeout 30 獲取...