Python 爬蟲 爬《權力的遊戲》中英對照版

2021-09-23 14:29:53 字數 1509 閱讀 7797

先分析它的html源:

主要**如下:

#!/usr/bin/python

# -*- coding: gbk -*-

# by gnolux 20190524

# email: [email protected]

from urllib import request

import re

url = ''

title = '權力的遊戲:第001期:restart'

for page in range(0,1210):

response = request.urlopen(url)

html = response.read()

html = html.decode("utf-8")

rstr = r'()'

s=re.findall(rstr,html,re.s)

for i in range(len(s)):

if s[i].startswith("《權力的遊戲》是一部"):

s[i]=''

if s[i].startswith("背景介紹:"):

s[i]='\n-----------------\n'

if s[i].startswith("來自"):

s[i]=''

#ct = '\n'.join(s)

title=title.split(':')[2]

print(title)

#print(url)

#print(ct)

with open('d:/%s.txt'%title, 'w') as f:

f.write("%s"%title)

f.write("%s

"%url)

f.writelines(s)

s=re.findall(rstr,html,re.s)

if len(s) == 1:

url,title = s[0]

url=''+url

else:

print(ct)

brea

上述寫檔案部分,沒有合併到乙個文字檔案中,而是每個單獨乙個檔案,是因為網頁發布不是完全有序的。以章節作檔名,全爬下來後,按檔名重排序並合併,就能得到有序的完整書內容了。

看爬下的結果:

再用工具把檔案合併轉換成 mobi . kindle就能慢慢看了。

《權力的遊戲》Python探索性分析

權力的遊戲 game of thrones 是美國hbo電視網製作推出的一部中世紀史詩奇幻題材的電視劇集。該劇改編自美國作家喬治 r r 馬丁的奇幻 冰與火之歌 系列。該劇成功塑造成千上萬形象飽滿的人物角色 怪誕獨特充滿想象的風土人情,其空間之完整 細節之豐富 敘事之恣意讓人感嘆!現在讓我們用資料分...

python爬蟲反爬 爬蟲怎麼測試反爬?

有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...

遊戲中的指令碼

現在遊戲裡流行的指令碼有python 和lua 例如魔獸世界就是用lua指令碼來驅動邏輯的。我們為什麼用指令碼,而不是純用c 呢?當然,這與團隊協作以及工作效率有關。c 編譯速度不佳,當乙個專案達到比較龐大的乙個規模時,編譯的時間往往會讓人憤怒了。於是,python出現了。一些重要的演算法實現,圖形...