現在貓眼加了反爬蟲了,所以加了headers。
試了一下只加user-agent會出現驗證碼的問題,都拷過來加上,沒事了。
試了一下注釋掉cookie,發現也是可以的。
初次學習爬蟲,太累了。
import json
import re
from multiprocessing import freeze_support
from multiprocessing.pool import pool
import requests
from requests.exceptions import requestexception
def get_one_page(url,headers):
try:
res=requests.get(url,headers=headers)
if res.status_code==200:
return res.text
return none
except requestexception:
return none
def parse_one_page(html):
# patten=re.compile(".*?")
results=re.findall(patten,html)
for result in results:
href,title,star,time=result
star=re.sub('\s',"",star)
print(href,title,star,time)
yield
def write_file(item):
with open('results.txt','a',encoding='utf-8') as f:
f.write(json.dumps(item,ensure_ascii=false)+"\n")
def main(offset):
url=""+str(offset)
headers=
headers=
html=get_one_page(url,headers)
# html=testre.html
# print(html)
for item in parse_one_page(html):
write_file(item,)
if __name__ == '__main__':
freeze_support() #加上還是缺少三行
pool=pool(3)
pool.map(main,[i*10 for i in range(10)]) #多程序缺少行,還有半行和亂碼
pool.close()
pool.join()
''' for i in range(0,100,10): #單程序執行100行,結果正確
main(i)
'''
***下面是爬出的結果:***斜體樣式
", 「time」: 「2013-09-04(英國)」}
《爬蟲》崔慶才的爬蟲課
官方安裝python pycharm python非常好用的ide linux 安裝對應的依賴庫和python ac os mongodb環境安裝 連線客戶端 mongo 配置成服務 增加日誌檔案 linux ac os redis環境安裝 linux 進行遠端鏈結和訪問許可權密碼的設定 mac o...
模擬cas,跟著老師的Demo寫的,簡單了解了,
public class casdemo class cas public void setvalue int value public synchronized int compareandswap int exceptvalue,int upsetvalue return value publi...
python寫爬蟲的彎路
from bs4 import beautifulsoup import requests import re reponse requests.get url reponse.encoding gbk html reponse.text 這是網頁的部分 第一章 你心裡沒點數嗎 第二章 原來是一場精...