獲取新浪網的鏈結資訊

sgmllib.py 包含乙個重要的類: sgmlparser。sgmlparser 將 html 分解成有用的片段，比如開始標記和結束標記。一旦它成功地分解出某個資料為乙個有用的片段，它會根據所發現的資料，呼叫乙個自身內部的方法。為了使用這個分析器，您需要子類化 sgml- parser類，並且覆蓋這些方法。

sgmlparser類裡面包含了很多內部方法，開始讀取html後，遇到相應的資料就會呼叫其對應的方法，最重要的方法有三個：

tagname就是標籤名稱，比如當遇到

，就會呼叫start_pre，遇到

，就會呼叫 end_pre，attrs即為標籤的引數，以[(attribute, value), (attribute, value), ...]的形式傳回，我們要做的就是在其子類過載自己感興趣標籤對應的函式。

from

sgmllib

import

sgmlparser

import

urllib

import

urllib2

import

socket

socket.setdefaulttimeout(

210)

class

urllister(sgmlparser):

defreset(self):

self.url=

sgmlparser.reset(self)

defstart_a(self,attrs):

href

=[v

fork,v

inattrs ifk

=='href']

ifhref:

self.url.extend(href)

parser

=urllister()

myurl='

'request

=urllib2.request(myurl)

opener

=urllib2.build_opener()

page

=opener.open(request)

ifpage.code

==200

:predata

=page.read()

parser.feed(predata)

parser.url,"\n

獲取新浪網的鏈結資訊

新浪網 sina 新聞鏈結爬取

python爬蟲之新浪網（簡潔版）

ZT 剛從新浪網看到的，極有感觸

獲取新浪網的鏈結資訊

新浪網 sina 新聞鏈結爬取

python爬蟲之新浪網（簡潔版）

ZT 剛從新浪網看到的，極有感觸

相關推薦