先分析它的html源:
主要**如下:
#!/usr/bin/python
# -*- coding: gbk -*-
# by gnolux 20190524
# email: [email protected]
from urllib import request
import re
url = ''
title = '權力的遊戲:第001期:restart'
for page in range(0,1210):
response = request.urlopen(url)
html = response.read()
html = html.decode("utf-8")
rstr = r'()'
s=re.findall(rstr,html,re.s)
for i in range(len(s)):
if s[i].startswith("《權力的遊戲》是一部"):
s[i]=''
if s[i].startswith("背景介紹:"):
s[i]='\n-----------------\n'
if s[i].startswith("來自"):
s[i]=''
#ct = '\n'.join(s)
title=title.split(':')[2]
print(title)
#print(url)
#print(ct)
with open('d:/%s.txt'%title, 'w') as f:
f.write("%s"%title)
f.write("%s
"%url)
f.writelines(s)
s=re.findall(rstr,html,re.s)
if len(s) == 1:
url,title = s[0]
url=''+url
else:
print(ct)
brea
上述寫檔案部分,沒有合併到乙個文字檔案中,而是每個單獨乙個檔案,是因為網頁發布不是完全有序的。以章節作檔名,全爬下來後,按檔名重排序並合併,就能得到有序的完整書內容了。
看爬下的結果:
再用工具把檔案合併轉換成 mobi . kindle就能慢慢看了。
《權力的遊戲》Python探索性分析
權力的遊戲 game of thrones 是美國hbo電視網製作推出的一部中世紀史詩奇幻題材的電視劇集。該劇改編自美國作家喬治 r r 馬丁的奇幻 冰與火之歌 系列。該劇成功塑造成千上萬形象飽滿的人物角色 怪誕獨特充滿想象的風土人情,其空間之完整 細節之豐富 敘事之恣意讓人感嘆!現在讓我們用資料分...
python爬蟲反爬 爬蟲怎麼測試反爬?
有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...
遊戲中的指令碼
現在遊戲裡流行的指令碼有python 和lua 例如魔獸世界就是用lua指令碼來驅動邏輯的。我們為什麼用指令碼,而不是純用c 呢?當然,這與團隊協作以及工作效率有關。c 編譯速度不佳,當乙個專案達到比較龐大的乙個規模時,編譯的時間往往會讓人憤怒了。於是,python出現了。一些重要的演算法實現,圖形...