最近一直在學習python語言,想學會一門程式語言,因為python簡單易學,另外功能強大,只有我想不到的,沒有python做不到的,所以就選擇了這門程式語言。
學習完它的基礎語法後,想進一步的提公升,此時同事介紹了兩個方法,乙個是去github**做練習題,乙個是去學習爬蟲,到**中爬資料,去資料庫中爬資料。
我剛開始時去做習題,但發現有些習題不會做,不如爬蟲實戰的效果明顯。故開始學習爬蟲。
學會一門程式語言就是要來解決實際工作中的需求,從這個角度來看,直接學爬蟲吧。
學習爬蟲也只有乙個星期的時間,大體的學習思路與流程簡單說明一下吧,方便後來者借鑑(我也不能說自己的方法一定正確,如果有用,能幫助到人,也不枉自己花的這點時間了。)
python爬蟲主要用到的幾個庫,urllib,urllib2,cookielib,re,這是我這週碰到的幾個。
首先從最基本的,爬取乙個網頁的html碼。
然後難度公升級,加入headers的資訊,再爬,如:headers中的user——agent資訊,data資訊,timeout資訊,設定**等。
get 請求,post請求不同的爬取方式。
獲取cookie資訊,儲存cookie資訊到文字,從文字中讀取儲存的cookie資訊,儲存登入的cookie後,再讀取登入後別的頁面的資訊。
再次,學習正規表示式,用來匹配與篩選資訊。python中的正規表示式的用法,可以系統性的學習下。
最後,當以上的基礎打牢後,就進行一些實戰了。
在實戰中鞏固基礎,在實戰中提高。
每天堅持練習乙個小時的**,一直堅持下去,會達到「悟」的水平的。
學習筆記 關於小白學習Python爬蟲的一些筆記
requests與beautifulsoup爬取一些 的經驗 這是第一次寫的爬取 的程式,寫得不夠簡潔有些地方都寫的不是很規範,希望在以後能夠不斷勉勵寫出更好的 也做作為自己以後學習的乙個參考 import requests from bs4 import beautifulsoup import ...
關於爬蟲初期學習爬取小說的問題
剛學完爬蟲基礎,由於這是沒有學習框架時候的 可能會顯得有些囉嗦,不過裡邊有很多自己的想法,可以參考並提出意見.由於當時寫的比較匆忙,沒有用到物件導向的思想去編寫 所以這裡只是用到了函式 import json import os import re import urllib.request imp...
關於爬蟲與反爬蟲簡略方案
像安全與黑客從來都是相輔相成一樣。爬蟲與反爬蟲也是在雙方程式設計師的鬥智鬥勇的過程不斷發展和成長的。抓包的目的 分析出協議請求使用的資料,請求介面,引數等等。常用的抓包分析工具 充分了解 httpclient 的特性,使用方式等。httpclient4.5官方教程 使用 user agent 的偽裝...