import首先定義獲取總頁面、獲取頁面所有鏈結、獲取頁面資訊、生成詞云等的函式,過程中就是獲取所有頁面所有鏈結出現點問題,歸結於找標籤問題。這次爬取的是乙個電影**,將**裡面的電影名、主演、年代、地區,然後進行詞云生成requests
import
refrom bs4 import
beautifulsoup
import
jieba.analyse
from pil import
image, imagesequence
import
numpy as np
import
matplotlib.pyplot as plt
from wordcloud import
wordcloud, imagecolorgenerator
#獲取總頁數
defgetnum(url):
res =requests.get(url)
res.encoding = '
gb2312
'soup = beautifulsoup(res.text, '
html.parser')
info = soup.select("
.page-next
")[0].extract().text
totalnum = re.search("
共(\d+)頁.*
",info).group(1)
return
totalnum
#獲取單個頁面所有鏈結
defgetpageurl(url):
res =requests.get(url)
res.encoding = '
gb2312
'soup = beautifulsoup(res.text, '
html.parser')
a = soup.select("
.list-page ul")
for i in soup.select("
.list-page ul li"):
if len(i.select("
a"))>0:
info = i.select("
a")[0].attrs['
href']
pageurl = '
' +info
(pageurl)
getinfromation(pageurl)
#獲取頁面的資訊
defgetinfromation(url):
res =requests.get(url)
res.encoding = '
gb2312
'soup = beautifulsoup(res.text, '
html.parser')
a = soup.select("
.content .movie ul h1
")[0].text
print("
電影:"
,a) b = soup.select("
.content .movie ul li
")[1].text
name = re.search("
【主 演】:(.*)
",b).group(1)
print("
主演:"
,name)
c = soup.select("
.content .movie ul li
")[4].text
date = re.search("
【年 代】:(.*) 【地 區】:
", c).group(1)
print("
年代:"
, date)
diqu = re.search("
【地 區】:(.*)
", c).group(1)
print("
地區:"
,diqu)
#將標籤內容寫入檔案
f = open('
gzccnews.txt
', '
a', encoding='
utf-8')
f.write(a )
f.write(name )
f.write(date )
f.write(diqu)
f.write("\n
")f.close()
#生成詞云
爬蟲大作業
1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...