進入正題,首先要搞到資源,我先去了搜尋了一番,找到個**「落霞」。一言不合就按下了f12,翻了下網頁原始碼,超級簡單。
from bs4 import beautifulsoup
from requests import session
from re import sub,dotall
sess = session(
)txt=
url =
''deffind
(url)
: res = sess.get(url)
soup = beautifulsoup(res.content,
'html.parser'
) title = soup.find(
'title'
) div = soup.find(
'div',id
='nr1'
) ps = div.find_all(
'p')
page = title.text+
'\n'
print
(page)
for p in ps:
page += p.text+
'\n'
try:
a = soup.find(
'a',rel=
'next'
) href = a[
'href'
]except
:return
0 find(href)
find(url)
網頁結構真的超級簡潔有規律,標題就在裡,正文在乙個title標籤裡,而且每段話都用p標籤包起來了。不過他的**不是連續的數字,so,迭代**。下一章的鏈結就包在乙個a標籤裡,還帶了屬性。給落霞**程式設計師打call,不過我馬上就後悔了,這個**速度有點慢,差不多一秒一章的樣子?
是我換了個**,書趣閣,這個倒是快,就是程式設計師不喜歡打標記。
'下一章'][
0]if'index'
notin href:
shuquge(href)
shuquge(url)
標籤都沒個正經屬性,還一堆廣告。正文裡面也有,還得我刪
import jieba,cv2
from wordcloud import wordcloud
img=cv2.imread(
'c2cec1e832a833ded3f6f9bbc226ae2f.jpeg'
)content=
' '.join(jieba.cut(
''.join(shu)))
wordshow = wordcloud(background_color=
'white'
, width=
800,
height=
800,
max_words=
800,
max_font_size=
100,
font_path=
"msyh.ttc"
,#用微軟雅黑作為字型顯示效果
mask=img,
mode=
'rgba'
).generate(content)
wordshow.to_file(
'word.png'
)#轉換成
from codecs import
open
with
open
('慶餘年.txt'
,'w'
,'utf8'
)as f:
f.write(
'\n'
.join(shu)
)#網頁是utf8的,windows下直接用gbk存不了
基於Python的《慶餘年》評論分析
支援人數 3594 支援人數 2285 支援人數 1929 支援人數 1384 支援人數 1696 接下來提取字段,清洗處理,部分結果如下 達康書記的臉配上陳萍萍的名字,有種莫名的喜感。帶著鐐銬能把舞跳這麼好我是很服的,開頭的穿越設定很驚豔,第一集這個還原度真心沒得說,小范閒人畜無害的笑我可太喜歡了...
Python 爬蟲(獲取小說)
以 筆趣閣 為例 需求 python3版本以上 安裝方法如下 先安裝python3 pip,然後檢查下版本,如果版本可以公升級,就 upgrade pip 一下,然後再安裝beautifulsoup4 sudo apt get install python3 pip pip3 version pip...
python 爬蟲,抓取小說
coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...