python 爬取帖子的鏈結遇到的問題並解決

import urllib2
import urllib
from lxml import etree
def tieba_spider(fullurl):
headers = 
request = urllib2.request(fullurl,headers = headers)
html = urllib2.urlopen(request).read()
content = etree.html(html)
link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
for link in link_list:
print link
if __name__ == '__main__':
fullurl = ""
tieba_spider(fullurl)

這是一開始的**，xpath用google瀏覽器上面的外掛程式xpath-helper驗證過，沒有問題，但返回的link_list就是空，一開始我還查以為是google的xpath-helper外掛程式有問題，查詢資料發現不是，於是我就懷疑問題出在返回的html中，我就先用xpath查詢頭部，發現可以返回，看貼吧那頁的源**，發現帖子那些居然被注釋了，終於發現原因了，經過測試，注釋的是不會被xpath檢測的，匹配不到，於是我先用正則把注釋的符號替換為''，然後再經過xpath，就可以成功返回了，一點小小的經驗。

修改之後的**：

import urllib2
import urllib
import re
from lxml import etree
def tieba_spider(fullurl):
headers = 
request = urllib2.request(fullurl,headers = headers)
text = urllib2.urlopen(request).read()
pattern = re.compile(r"()", re.s)
html = pattern.sub('', text)
content = etree.html(html)
link_list = content.xpath('//div[@class="t_con cleafix"]//a[@class="j_th_tit "]/@href')
for link in link_list:
print link
fullurl = ""
tieba_spider(fullurl)

成功獲取鏈結

python 爬取帖子的鏈結遇到的問題並解決

帖子資訊爬取

python動態爬取知乎 python爬取微博動態

爬取frame內的多條鏈結

python 爬取帖子的鏈結遇到的問題並解決

帖子資訊爬取

python動態爬取知乎 python爬取微博動態

爬取frame內的多條鏈結

相關推薦