python簡單爬蟲

2022-01-30 09:46:42 字數 1445 閱讀 4770

爬蟲真是一件有意思的事兒啊,之前寫過爬蟲,用的是urllib2、beautifulsoup實現簡單爬蟲,scrapy也有實現過。最近想更好的學習爬蟲,那麼就盡可能的做記錄吧。這篇部落格就

我今天的乙個學習過程寫寫吧。

一  正規表示式

正規表示式是乙個很強大的工具了,眾多的語法規則,我在爬蟲中常用的有:

.匹配任意字元(換行符除外)

*匹配前乙個字元0或無限次

?匹配前乙個字元0或1次

.*貪心演算法

.*?非貪心演算法

(.*?)

將匹配到的括號中的結果輸出

\d匹配數字

re.s

使得.可以匹配換行符

常用的方法有:find_all(),search(),sub()

對以上語法方法做以練習,**見:

二  urllib和urllib2

urllib和urllib2庫是學習python爬蟲最基本的庫,利用該庫,我們可以得到網頁的內容,同時,可以結合正則對這些內容提取分析,得到真正想要的結果。

在此將urllib和urllib2結合正則爬取了糗事百科中的作者點讚數內容。

**見:

三 beautifulsoup

beautifulsoup是python的乙個庫,最主要的功能是從網頁抓取資料,官方介紹是這樣的:

beautiful soup 提供一些簡單的、python 式的函式用來處理導航、搜尋、修改分析樹等功能。它是乙個工具

箱,通過解析文件為使用者提供需要抓取的資料,因為簡單,所以不需要多少**就可以寫出乙個完整的應用程

序。beautiful soup 自動將輸入文件轉換為 unicode 編碼,輸出文件轉換為 utf-8 編碼。你不需要考慮編碼方

式,除非文件沒有指定乙個編碼方式,這時,beautiful soup 就不能自動識別編碼方式了。然後,你僅僅需要

說明一下原始編碼方式就可以了。

beautiful soup 已成為和 lxml、html6lib 一樣出色的 python 直譯器,為使用者靈活地提供不同的解析策略或強

勁的速度。

**詳見:

**執行:

鞏固篇,依據豆瓣中圖書的標籤得到乙個書單,同樣使用beautifulsoup。

**詳見:

執行結果:

以上就是今天學習的一些內容,爬蟲真的很有意思啊,明天繼續學scrapy!

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

簡單python爬蟲

一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...

Python簡單爬蟲

一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...