沒採用網上自動解析驗證碼的方案,快過年了,不想pip,快速解決快速回家
import requestfrom datetime import
datetime, timedelta
from scrapy.selector import
selector
s=requests.session()
headers =
url = '
'res = requests.get(url,headers=headers)
hxs =selector(res)
#print(res.text)
datepub = hxs.xpath('
//main[@class="content"]//time/text()
').extract()
#print (datepub)
links = hxs.xpath('
//main[@class="content"]//h2/a')
for index, link in
enumerate(links):
pubdatestr =datepub[index]
pubdatestr =pubdatestr.strip()
url = ''.join(link.xpath('
./@href
').extract())
item_pubdatestr = datetime.strftime(pubdate, '
%y-%m-%d')
item_res = requests.get(url, headers=headers)
item_hxs =selector(item_res)
item_title = item_hxs.xpath("
//h2/text()
").extract()
item_content = item_hxs.xpath("
//main//div[@class='econtent']/p//text()
").extract()
item_datepublish =item_pubdatestr
item_linkaddress =url
filename = datetime.now().strftime('
%y%m%d%h%m%s%f
')+"
.txt
"str_result = '
'else
: str_result = str_result + '
"content": ["
' + "" + '
"]}'
if len(str_result) >0:
with open(filename, 'w
',encoding='
utf-8
') as f:
f.write(str_result)
print(item_title)
如何獲取當期可用的cookies的方法:
開啟chorme,開啟「開發者工具」(按f12)
訪問**後
去開發發工具裡的「network」tab頁裡去找它的cookies!
enjoy :p
網頁爬蟲 爬取百度諮詢新聞
工具 import urllib request urllib.request庫可以模擬瀏覽器傳送網頁請求並獲取request的結果。以科技類新聞為例,擬爬取這樣一篇文章。首先,傳送請求 html request urllib request request html 寫入獲取到的網頁,並轉化成py...
百度雲加速3 0上線 支援海外主機空間加速
雲加速是旗下為 提供加速 安程式設計客棧全防護的平台,於2014年4月推出hhlntjhh,與之前大家所知道的加速樂免費cdn有聯絡又有區別,簡單地說就是 與加速樂在2013年8月開始交往,一直到2014年5月,與加速樂正式分手了。在與交往的短短半年的時間內,加速樂的cdn服務得到不少人的認可,加速...
列印網頁(獲得網頁限制的內容(如百度文庫))
以火狐瀏覽器為例。如果是學習,比如列印出來,這就方便很多。乙個很好用的外掛程式fireshot,能夠在網頁截圖。還有乙個是adblock,遮蔽廣告和刪除元素。print edit we這個外掛程式可以參考使用,算是兩者的結合。step1 首先要用adblock把廣告給遮蔽掉。一般預設即可遮蔽,如果有...