sgmllib.py 包含乙個重要的類: sgmlparser。sgmlparser 將 html 分解成有用的片段, 比如開始標記和結束標記。一旦它成功地分解出某個資料為乙個有用的片段,它會根據 所發現的資料,呼叫乙個自身內部的方法。為了使用這個分析器,您需要子類化 sgml- parser類,並且覆蓋這些方法。
sgmlparser類裡面包含了很多內部方法,開始讀取html後,遇到相應的資料就會呼叫其對應的方法,最重要的方法有三個:
tagname就是標籤名稱,比如當遇到
,就會呼叫start_pre,遇到,就會呼叫 end_pre,attrs即為標籤的引數,以[(attribute, value), (attribute, value), ...]的形式傳回,我們要做的就是在其子類過載自己感興趣標籤對應的函式。 from
sgmllib
import
sgmlparser
import
urllib
import
urllib2
import
socket
socket.setdefaulttimeout(
210)
class
urllister(sgmlparser):
defreset(self):
self.url=
sgmlparser.reset(self)
defstart_a(self,attrs):
href
=[v
fork,v
inattrs ifk
=='href']
ifhref:
self.url.extend(href)
parser
=urllister()
myurl='
'request
=urllib2.request(myurl)
opener
=urllib2.build_opener()
page
=opener.open(request)
ifpage.code
==200
:predata
=page.read()
parser.feed(predata)
parser.url,"\n
"
新浪網 sina 新聞鏈結爬取
一 新聞爬蟲需求分析 二 實現思路 三 專案 實現 1.首先解析網頁,檢視各條新聞儲存位置 2.通過正規表示式獲取新聞鏈結,依次爬取各新聞並儲存到本地 正規表示式,寫出每條新聞對應的鏈結 coding utf 8 import urllib.request import re data urllib...
python爬蟲之新浪網(簡潔版)
爬蟲 python 注釋挺詳細了,直接上全部 歡迎各位大佬批評指正。from selenium import webdriver from selenium.webdriver.chrome.options import options from selenium.webdriver.common....
ZT 剛從新浪網看到的,極有感觸
母親和mm,是我生命中最重要的兩個人。她們都是無可挑剔的,都很愛我,不同的是母親養育我20年,而mm愛我僅4年。而我,對她們卻相差甚遠。想起來夜不能寐,汗顏。1.和母親在一起的時候,常常想起mm 但和mm在一起的時候,只是偶爾談到母親。2.給mm打 不把一張卡打完決不罷休 給母親打 聽她叮囑了再叮囑...