爬取四大名著

'''
詩詞名句網
1. 爬取固定書籍
2. 爬取書名
3. 爬取本部書的章回目錄
4. 靈活處理，爬取任意書籍的章回目錄
5. 加入異常處理
6. 爬取任意整本書
'''import
requests
import
redef
bookspider(oldurl,bookname):
url=oldurl+"
.html
"html=loadpage(url)
try:
with open(
"demo.txt
",'w
',encoding='
utf-8
') as f:
f.write(html)
except
:        
print("
file operation error")
findtitle(
"demo.txt
",bookname)
cnt=findtileofpages("
demo.txt
",bookname)
getwholebook(oldurl,bookname,cnt)
deffindtitle(filename,bookname):
try:
f=open(filename,encoding='
utf-8')
book=open("
book.txt
",'w
',encoding='
utf-8')
except
:        
print("
file operation error")
while
true:
line=f.readline()
#print("read:"+line)
ifnot
line:
break
pattern=re.compile(r'
《.》'
)        bookname=re.search(pattern,line)
flag=false
ifbookname:
print("
書名：",end=""
)            
for ch in
str(bookname):
if ch == '《'
:                    flag=true
if ch == '》'
:                    flag=false
print("》"
)                    book.write('》
'+'\n')
ifflag:
print(ch,end=""
)                    book.write(ch)
deffindtileofpages(filename,bookname):
cnt=0
try:
f = open(filename,encoding='
utf-8')
book = open("
book.txt
",'a
', encoding='
utf-8')
except
:        
print("
file operation error")
book.write(
"目錄：\n")
while
true:
line =f.readline()
#print("read:"+line)
ifnot
line:
break
pattern = re.compile(r'
'+bookname+'
/\d+.html">.')
titleofpages =pattern.findall(line)
flag =false
iftitleofpages:
for i in
range(0,len(titleofpages)):
cnt+=1
for j in
range(0,len(titleofpages[i])):
if titleofpages[i][j] == '第'
:                        flag=true
if titleofpages[i][j] == '
<':
flag=false
ifflag:
print(titleofpages[i][j],end=""
)                        book.write(titleofpages[i][j])
print
()                book.write('\n
')return
cntdef
getwholebook(url,bookname,cnt):
print("")
for i in range(1,cnt+1):
newurl=url+'
/'+str(i)+"
.html
"print
(newurl)
html=loadpage(newurl)
try:
with open(
"bookhtml.txt
", '
w', encoding='
utf-8
') as f:
f.write(html)
except
:            
print("
file operation error")
f = open('
bookhtml.txt
', '
r', encoding='
utf-8')
bookcontent = open('
book.txt
', '
a', encoding='
utf-8')
while
true:
line =f.readline()
#print("read:"+line)
ifnot
line:
break
pattern = re.compile(r'')
content =re.findall(pattern, line)
patternoftitle=re.compile(r'')
contentoftitle =re.findall(patternoftitle, line)
flag=false
for i in
range(0, len(contentoftitle)):
for j in
range(0, len(contentoftitle[i])):
if contentoftitle[i][j] == '
>':
flag=true
continue
if contentoftitle[i][j] == '
<':
flag=false
continue
ifflag:
bookcontent.write(contentoftitle[i][j])
bookcontent.write('\n
')flag =false
for i in
range(0, len(content)):
for j in
range(0, len(content[i])):
if content[i][j] == '
<':
flag=false
continue
if content[i][j] == ';'
and content[i][j - 1] == 'p'
and content[i][j + 1] != '&'
:                        flag =true
continue
ifflag:
bookcontent.write(content[i][j])
bookcontent.write('\n
')f.close()
bookcontent.close()
defloadpage(url):
try:
header = 
response = requests.get(url, headers=header)
return response.content.decode('
utf-8')
except
:        
print("
page load error")
if__name__ == "
__main__":
bookname=input("
請輸入想看的書名：(全拼)")
url = "
"+bookname
bookspider(url,bookname)

微軟四大名著

微軟4大名著每一本都是值得永遠珍藏的經典！互動別專題特別專題 1.程式設計精粹編寫高質量c語言英文版詳細資訊程式設計精粹編寫高質量c語言英文版 2.windows程式設計英文版第5版享譽世界的微軟技術大師。他的著作和文章為windows程式設計技術的推廣和普及作出了巨大貢獻，...

1 6 4 四大名著案例

如下 doctype html html lang en head meta charset utf 8 title 四大名著 title head body h1 四大名著水滸傳 h3 水滸傳是中國歷史上第一部用古白話文寫成的歌頌農民起義的長篇章回體版塊結構以宋江領導的起義軍為主要題材，通過...

四大名著經典妙解

1 紅樓大部分是女人水滸大部分是男人西遊大部分不是人三國大部分全是人。2 紅樓丫頭臉皮厚水滸朝廷臉皮厚三國軍師臉皮厚西遊神仙臉皮厚。3 西遊猴哥救我紅樓妹妹救我水滸叔叔救我三國軍師救我。4 西遊出身不好，想成佛是有難度的紅樓出身不好，想嫁人是有難度的 ...

爬取四大名著

微軟四大名著

1 6 4 四大名著案例

四大名著經典妙解

相關推薦