1.選乙個自己感興趣的主題(所有人不能雷同)。
答:爬取李冰冰微博主頁資訊
2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。
3.對爬了的資料進行文字分析,生成詞云。
4.對文字分析結果進行解釋說明。
答:文字獲取到的字元資訊並不是我們想要的效果,因此,為了達到我們想要的效果,我就將所獲取到的文字資訊,生成乙個詞雲圖,這樣我們就可以比較直觀地看出,廣州大學地新聞網地資訊主要在強調些什麼,從而達到此次爬取的目的。
5.寫一篇完整的部落格,描述上述實現過程、遇到的問題及解決辦法、資料分析思想及結論。
答:首先要有信心。雖然可能你看了幾個小時也沒在螢幕上打出乙個三角形,或者壓根兒就沒能把程式執行起來。但相信我,幾乎所有程式設計師一開始都是這麼折騰過來的。
盡量不要系統地去啃一些東西,找乙個實際的專案,直接開始就好。
6.最後提交爬取的全部資料、爬蟲及資料分析源**。
#-*- coding: utf-8 -*-
import
requests
from bs4 import
beautifulsoup as bs
if__name__ == '
__main__':
url = "
"#html = getreq(url)
info =gettext(url)
(info)
for i in
info:
(i) f = open('
i.txt
', '
a+',encoding='
utf-8')
f.write(i)
f.write('\n
')f.close()
defgettext(url):
header =
html = requests.get(url, headers=header).content
soup = bs(html, '
html.parser')
info = soup.select('
div.newlist.black01 a')
a =for i in
info:
(i.text)
return
aimport
jieba
import
pilfrom wordcloud import
wordcloud
import
matplotlib.pyplot as p
import
osinfo = open('
i.txt
', '
r', encoding='
utf-8
').read()
text = ''
text += '
'.join(jieba.lcut(info))
wc = wordcloud(font_path='
c:\windows\fonts\stzhongs.ttf
', background_color='
white
', max_words=50)
wc.generate_from_text(text)
p.imshow(wc)
#p.imshow(wc.recolor(color_func=00ff00))
p.axis("
off"
)p.show()
wc.to_file(
'詞云.jpg
')
爬蟲大作業
1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...