爬蟲大作業

2022-06-04 08:51:14 字數 3390 閱讀 3906

import

requests

import

refrom bs4 import

beautifulsoup

import

jieba.analyse

from pil import

image, imagesequence

import

numpy as np

import

matplotlib.pyplot as plt

from wordcloud import

wordcloud, imagecolorgenerator

#獲取總頁數

defgetnum(url):

res =requests.get(url)

res.encoding = '

gb2312

'soup = beautifulsoup(res.text, '

html.parser')

info = soup.select("

.page-next

")[0].extract().text

totalnum = re.search("

共(\d+)頁.*

",info).group(1)

return

totalnum

#獲取單個頁面所有鏈結

defgetpageurl(url):

res =requests.get(url)

res.encoding = '

gb2312

'soup = beautifulsoup(res.text, '

html.parser')

a = soup.select("

.list-page ul")

for i in soup.select("

.list-page ul li"):

if len(i.select("

a"))>0:

info = i.select("

a")[0].attrs['

href']

pageurl = '

' +info

print

(pageurl)

getinfromation(pageurl)

#獲取頁面的資訊

defgetinfromation(url):

res =requests.get(url)

res.encoding = '

gb2312

'soup = beautifulsoup(res.text, '

html.parser')

a = soup.select("

.content .movie ul h1

")[0].text

print("

電影:"

,a) b = soup.select("

.content .movie ul li

")[1].text

name = re.search("

【主 演】:(.*)

",b).group(1)

print("

主演:"

,name)

c = soup.select("

.content .movie ul li

")[4].text

date = re.search("

【年 代】:(.*) 【地 區】:

", c).group(1)

print("

年代:"

, date)

diqu = re.search("

【地 區】:(.*)

", c).group(1)

print("

地區:"

,diqu)

#將標籤內容寫入檔案

f = open('

gzccnews.txt

', '

a', encoding='

utf-8')

f.write(a )

f.write(name )

f.write(date )

f.write(diqu)

f.write("\n

")f.close()

#生成詞云

首先定義獲取總頁面、獲取頁面所有鏈結、獲取頁面資訊、生成詞云等的函式,過程中就是獲取所有頁面所有鏈結出現點問題,歸結於找標籤問題。這次爬取的是乙個電影**,將**裡面的電影名、主演、年代、地區,然後進行詞云生成

爬蟲大作業

1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...