python抽取指定url頁面的title方法

python抽取指定url頁面的title方法

今天簡單使用了一下python的re模組和lxml模組，分別利用的它們提供的正規表示式和xpath來解析頁面原始碼從中提取所需的title，xpath在完成這樣的小任務上效率非常好，在這裡之所以又使用了一下正規表示式是因為xpath在處理一些特殊的頁面的時候會出現亂碼的情況，當然這不是xpath的原因，而是頁面本身編碼，跟utf-8轉碼之間有衝突所致，

這裡看**：

# !/usr/bin/python

#-*-coding:utf-8-*-

'''功能：抽取指定url的頁面內容中的title

'''import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''utf8編碼轉換

'''try:

if isinstance(strs, unicode):

strs =

strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] ==

'gb2312':

strs = strs.decode("gb2312",

'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] ==

'utf-8':

strs = strs.decode('utf-8',

'ignore').encode('utf-8')

except exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(html):

'''用xpath抽取網頁title

'''html = utf8_transfer(html)

html_encoding =

chardet.detect(html)['encoding']

page = etree.html(html,

parser=etree.htmlparser(encoding=html_encoding))

title =

page.xpath('/html/head/title/text()')

try:

title = title[0].strip()

except indexerror:

print 'nothing'

print title

def get_title(html):

'''用re抽取網頁title

'''html = utf8_transfer(html)

compile_rule = ur''

title_list = re.findall(compile_rule, html)

if title_list == :

title = ''

else:

title = title_list[0][7:-8]

print title

if __name__ == '__main__':

url =

''html =

urllib.urlopen(url).read()

new_html =

utf8_transfer(html)

try:

get_title_xpath(new_html)

get_title(new_html)

except

python抽取指定url頁面的title

python抽取指定url頁面的title方法

python抽取指定url頁面的title方法今天簡單使用了一下python的re模組和lxml模組，分別利用的它們提供的正規表示式和xpath來解析頁面原始碼從中提取所需的title，xpath在完成這樣的小任務上效率非常好，在這裡之所以又使用了一下正規表示式是因為xpath在處理一些特殊的頁面...

python抽取指定url頁面的title方法

python抽取指定url頁面的title

python抽取指定url頁面的title方法

python抽取指定url頁面的title方法

相關推薦