一、什麼是爬蟲
爬蟲:一段自動抓取網際網路資訊的程式。
價值:網際網路資料為我所用。
二、爬蟲架構
執行流程:
三、幾種實現方式
四、url管理器
定義:管理待抓取url集合和已抓取url集合;
防止重複抓取、防止迴圈抓取
url = 「
print 『第一種方法』
response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())
print 『第二種方法』
request = urllib2.request(url)
request.add_header(「user-agent」,」mozilla/5.0」)
response2 = urllib2.urlopen(url)
print response2.getcode()
print len(response2.read())
print 『第三種方法』
六、網頁解析器
1)定義:從網頁中提取有價值資料的工具。
2)幾種網頁解析器:
3)結構化解析:
dom(document object model)樹
—python第三方庫,用於從html或xml中提取資料
—官網:
七、例項分析
2)入口頁:
3)url格式:
—詞條頁面url:/view/125370.htm
4)資料格式:
class="lemmawgt-lemmatitle-title">
dd>
—簡介:
class="lemma-summary"
label-module="lemmasummary">***
div>
5)頁面編碼:utf-8
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...
簡單python爬蟲
一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...
Python簡單爬蟲
一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料 利用正規表示式來獲取想...