爬蟲大作業

2022-08-18 10:45:11 字數 1596 閱讀 2984

#

-*- coding: utf-8 -*- #解決編碼問題

import

urllib

import

urllib2

import

reimport

osimport

time

page = 1url = '

'#爬取的目標**

user_agent = '

mozilla/4.0 (compatible; msie 5.5; windows nt)

'headers =

try:

request = urllib2.request(url,headers =headers)

response =urllib2.urlopen(request)

#print response.read()

content = response.read().decode('

utf-8

') #

解決編碼問題

pattern = re.compile(r'

(.*?).*?

',re.s) #

第乙個引數是匹配要爬取的內容,這裡使用正則去匹配

items =re.findall(pattern,content)

f=open(r'

.\article.txt

','ab

') #

txt檔案路徑

nowtimes = time.strftime('

%y-%m-%d %h:%m:%s

',time.localtime(time.time())) #

獲取當前時間

f.write('

'.format(nowtimes),); #

txt檔案中寫入時間

for i in

items:

i.encode(

'utf-8')

agent_info = u''.join(i).encode('

utf-8

').strip()

f.writelines(

'段子:%s%s\n

'%(str(agent_info),os.linesep)) #

分行存入

爬蟲大作業

1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...