1、選乙個自己感興趣的主題。
2、用python 編寫爬蟲程式,從網路上爬取相關主題的資料。
3、對爬了的資料進行文字分析,生成詞云。
4、對文字分析結果進行解釋說明。
5、寫一篇完整的部落格,描述上述實現過程、遇到的問題及解決辦法、資料分析思想及結論。
6、最後提交爬取的全部資料、爬蟲及資料分析源**。
import詞云:requests
from bs4 import
beautifulsoup
import
reimport
time
import
sysimport
pandas as pd
defgethtmltext(url,k):
try:
if(k==0):kw={}
else: kw=
r = requests.get(url,params=kw,headers=)
r.raise_for_status()
return
r.text
except
:
print("
failed!")
defgetdata(html,movieinfo):
soup = beautifulsoup(html, "
html.parser")
movielist=soup.find('
ol',attrs=)#
找到第乙個class屬性值為grid_view的ol標籤
for movieli in movielist.find_all('
li'):#
找到所有li標籤
data =
#得到電影名字
moviehd=movieli.find('
div',attrs=)#
找到第乙個class屬性值為hd的div標籤
moviename=moviehd.find('
span
',attrs=).gettext()#
找到第乙個class屬性值為title的span標籤
#也可使用.string方法
#得到電影的評分
moviescore=movieli.find('
span
',attrs=).gettext()
#得到電影的評價人數
movieeval=movieli.find('
div',attrs=)
movieevalnum=re.findall(r'
\d+',str(movieeval))[-1]
#得到電影的短評
moviequote = movieli.find('
span
', attrs=)
if(moviequote):
else:"
無")basicurl='
'k=0
movieinfo =
while k<=225:
html=gethtmltext(basicurl,k)
time.sleep(1)
k+=25getdata(html,movieinfo)
title = ['
電影名稱
', '
評分', '
', '短評'
]test = pd.dataframe(columns=title,data=movieinfo)
output=sys.stdout
outputfile=open("
movie.csv
",'w
',encoding='
utf-8')
(test)
test.to_csv(
"movie.csv")
outputfile.close()
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 在本次作...