Python貼吧小爬蟲

不用登陸，cookie，header

用了一點正規表示式

# -*- coding: utf-8 -*-
"""created on sun apr 10 14:00:32 2016
@author: albert
"""import urllib2
import re
i=0begin=int(raw_input(u'輸入起始頁'))
end=int(raw_input(u'輸入結束頁'))
f.write("第%d頁\n"%i)
i=i+1
url=r'吉林大學&ie=utf-8&pn='+'%d'%(50*(i-1))
html=urllib2.urlopen(url)
page=html.read()
patten=re.findall('(.*?)
',page,re.s)
for line in patten:
f.write(line+'\n')
f.close()

爬出來的是帖子標題

對於正則，先觀察源**，再去匹配

class="threadlist_abs threadlist_abs_onlyline">

這是源**

(.*?)

這是表示式

貼吧小爬蟲案例

如下 usr bin env python coding utf 8 import urllib import urllib2 def loadpage url,filename 作用根據url傳送請求，獲取伺服器響應檔案 url 需要爬取的url位址 filename 處理檔名 request ...

Python爬蟲獲取貼吧內容

參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...

python貼吧貼吧python登入

2017年12月，雲社群對外發布，從最開始的技術部落格到現在擁有多個社群產品。未來，我們一起乘風破浪，創造無限可能。python 資料探勘請求與響應 https tieba.baidu.comf?kw 爬蟲 ie utf 8 pn 200https tieba.baidu.comf?是基礎部分，...

Python貼吧小爬蟲

貼吧小爬蟲案例

Python爬蟲 獲取貼吧內容

python貼吧 貼吧python登入

相關推薦

Python爬蟲獲取貼吧內容

python貼吧貼吧python登入