爬蟲真是一件有意思的事兒啊,之前寫過爬蟲,用的是urllib2、beautifulsoup實現簡單爬蟲,scrapy也有實現過。最近想更好的學習爬蟲,那麼就盡可能的做記錄吧。這篇部落格就
我今天的乙個學習過程寫寫吧。
一 正規表示式
正規表示式是乙個很強大的工具了,眾多的語法規則,我在爬蟲中常用的有:
.匹配任意字元(換行符除外)
*匹配前乙個字元0或無限次
?匹配前乙個字元0或1次
.*貪心演算法
.*?非貪心演算法
(.*?)
將匹配到的括號中的結果輸出
\d匹配數字
re.s
使得.可以匹配換行符
常用的方法有:find_all(),search(),sub()
對以上語法方法做以練習,**見:
二 urllib和urllib2
urllib和urllib2庫是學習python爬蟲最基本的庫,利用該庫,我們可以得到網頁的內容,同時,可以結合正則對這些內容提取分析,得到真正想要的結果。
在此將urllib和urllib2結合正則爬取了糗事百科中的作者點讚數內容。
**見:
三 beautifulsoup
beautifulsoup是python的乙個庫,最主要的功能是從網頁抓取資料,官方介紹是這樣的:
beautiful soup 提供一些簡單的、python 式的函式用來處理導航、搜尋、修改分析樹等功能。它是乙個工具
箱,通過解析文件為使用者提供需要抓取的資料,因為簡單,所以不需要多少**就可以寫出乙個完整的應用程
序。beautiful soup 自動將輸入文件轉換為 unicode 編碼,輸出文件轉換為 utf-8 編碼。你不需要考慮編碼方
式,除非文件沒有指定乙個編碼方式,這時,beautiful soup 就不能自動識別編碼方式了。然後,你僅僅需要
說明一下原始編碼方式就可以了。
beautiful soup 已成為和 lxml、html6lib 一樣出色的 python 直譯器,為使用者靈活地提供不同的解析策略或強
勁的速度。
**詳見:
**執行:
鞏固篇,依據豆瓣中圖書的標籤得到乙個書單,同樣使用beautifulsoup。
**詳見:
執行結果:
以上就是今天學習的一些內容,爬蟲真的很有意思啊,明天繼續學scrapy!
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
簡單python爬蟲
一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...
Python簡單爬蟲
一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...