不用登陸,cookie,header
用了一點正規表示式
# -*- coding: utf-8 -*-
"""created on sun apr 10 14:00:32 2016
@author: albert
"""import urllib2
import re
i=0begin=int(raw_input(u'輸入起始頁'))
end=int(raw_input(u'輸入結束頁'))
f.write("第%d頁\n"%i)
i=i+1
url=r'吉林大學&ie=utf-8&pn='+'%d'%(50*(i-1))
html=urllib2.urlopen(url)
page=html.read()
patten=re.findall('(.*?)
',page,re.s)
for line in patten:
f.write(line+'\n')
f.close()
爬出來的是帖子標題
對於正則,先觀察源**,再去匹配
class="threadlist_abs threadlist_abs_onlyline">
這是源**
(.*?)
這是表示式
貼吧小爬蟲案例
如下 usr bin env python coding utf 8 import urllib import urllib2 def loadpage url,filename 作用 根據url傳送請求,獲取伺服器響應檔案 url 需要爬取的url位址 filename 處理檔名 request ...
Python爬蟲 獲取貼吧內容
參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...
python貼吧 貼吧python登入
2017年12月,雲 社群對外發布,從最開始的技術部落格到現在擁有多個社群產品。未來,我們一起乘風破浪,創造無限可能。python 資料探勘 請求與響應 https tieba.baidu.comf?kw 爬蟲 ie utf 8 pn 200https tieba.baidu.comf?是基礎部分,...