python簡單爬蟲

爬蟲真是一件有意思的事兒啊，之前寫過爬蟲，用的是urllib2、beautifulsoup實現簡單爬蟲，scrapy也有實現過。最近想更好的學習爬蟲，那麼就盡可能的做記錄吧。這篇部落格就

我今天的乙個學習過程寫寫吧。

一正規表示式

正規表示式是乙個很強大的工具了，眾多的語法規則，我在爬蟲中常用的有：

.匹配任意字元（換行符除外）

*匹配前乙個字元0或無限次

?匹配前乙個字元0或1次

.*貪心演算法

.*?非貪心演算法

（.*?)

將匹配到的括號中的結果輸出

\d匹配數字

re.s

使得.可以匹配換行符

常用的方法有：find_all()，search()，sub()

對以上語法方法做以練習，**見：

二 urllib和urllib2

urllib和urllib2庫是學習python爬蟲最基本的庫，利用該庫，我們可以得到網頁的內容，同時，可以結合正則對這些內容提取分析，得到真正想要的結果。

在此將urllib和urllib2結合正則爬取了糗事百科中的作者點讚數內容。

**見：

三 beautifulsoup

beautifulsoup是python的乙個庫，最主要的功能是從網頁抓取資料，官方介紹是這樣的：

beautiful soup 提供一些簡單的、python 式的函式用來處理導航、搜尋、修改分析樹等功能。它是乙個工具

箱,通過解析文件為使用者提供需要抓取的資料,因為簡單,所以不需要多少**就可以寫出乙個完整的應用程

序。beautiful soup 自動將輸入文件轉換為 unicode 編碼,輸出文件轉換為 utf-8 編碼。你不需要考慮編碼方

式,除非文件沒有指定乙個編碼方式,這時,beautiful soup 就不能自動識別編碼方式了。然後,你僅僅需要

說明一下原始編碼方式就可以了。

beautiful soup 已成為和 lxml、html6lib 一樣出色的 python 直譯器,為使用者靈活地提供不同的解析策略或強

勁的速度。

**詳見：

**執行：

鞏固篇，依據豆瓣中圖書的標籤得到乙個書單，同樣使用beautifulsoup。

**詳見：

執行結果：

以上就是今天學習的一些內容，爬蟲真的很有意思啊，明天繼續學scrapy!

python爬蟲簡單 python爬蟲簡單版

學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

簡單python爬蟲

一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...

Python簡單爬蟲

一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料利用正規表示式來獲取想...

python簡單爬蟲

python爬蟲簡單 python爬蟲 簡單版

簡單python爬蟲

Python簡單爬蟲

相關推薦

python爬蟲簡單 python爬蟲簡單版