爬蟲大作業

2022-05-12 06:28:42 字數 1963 閱讀 8218

1、選乙個自己感興趣的主題。

2、用python 編寫爬蟲程式,從網路上爬取相關主題的資料。

3、對爬了的資料進行文字分析,生成詞云。

4、對文字分析結果進行解釋說明。

5、寫一篇完整的部落格,描述上述實現過程、遇到的問題及解決辦法、資料分析思想及結論。

6、最後提交爬取的全部資料、爬蟲及資料分析源**。

import

requests

from bs4 import

beautifulsoup

import

reimport

time

import

sysimport

pandas as pd

defgethtmltext(url,k):

try:

if(k==0):kw={}

else: kw=

r = requests.get(url,params=kw,headers=)

r.raise_for_status()

return

r.text

except

:

print("

failed!")

defgetdata(html,movieinfo):

soup = beautifulsoup(html, "

html.parser")

movielist=soup.find('

ol',attrs=)#

找到第乙個class屬性值為grid_view的ol標籤

for movieli in movielist.find_all('

li'):#

找到所有li標籤

data =

#得到電影名字

moviehd=movieli.find('

div',attrs=)#

找到第乙個class屬性值為hd的div標籤

moviename=moviehd.find('

span

',attrs=).gettext()#

找到第乙個class屬性值為title的span標籤

#也可使用.string方法

#得到電影的評分

moviescore=movieli.find('

span

',attrs=).gettext()

#得到電影的評價人數

movieeval=movieli.find('

div',attrs=)

movieevalnum=re.findall(r'

\d+',str(movieeval))[-1]

#得到電影的短評

moviequote = movieli.find('

span

', attrs=)

if(moviequote):

else:"

無")basicurl='

'k=0

movieinfo =

while k<=225:

html=gethtmltext(basicurl,k)

time.sleep(1)

k+=25getdata(html,movieinfo)

title = ['

電影名稱

', '

評分', '

', '短評'

]test = pd.dataframe(columns=title,data=movieinfo)

output=sys.stdout

outputfile=open("

movie.csv

",'w

',encoding='

utf-8')

print

(test)

test.to_csv(

"movie.csv")

outputfile.close()

詞云:

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 在本次作...