爬蟲大作業

#
-*- coding: utf-8 -*-    #解決編碼問題
import
urllib
import
urllib2
import
reimport
osimport
time
page = 1url = '
'#爬取的目標**
user_agent = '
mozilla/4.0 (compatible; msie 5.5; windows nt)
'headers = 
try:
request = urllib2.request(url,headers =headers)
response =urllib2.urlopen(request)
#print response.read()
content = response.read().decode('
utf-8
')  #
解決編碼問題
pattern = re.compile(r'
(.*?).*?
',re.s)  #
第乙個引數是匹配要爬取的內容,這裡使用正則去匹配
items =re.findall(pattern,content)   
f=open(r'
.\article.txt
','ab
')       #
txt檔案路徑
nowtimes = time.strftime('
%y-%m-%d %h:%m:%s
',time.localtime(time.time()))    #
獲取當前時間
f.write('
'.format(nowtimes),);   #
txt檔案中寫入時間
for i in
items:
i.encode(
'utf-8')
agent_info = u''.join(i).encode('
utf-8
').strip()
f.writelines(
'段子:%s%s\n
'%(str(agent_info),os.linesep))   #
分行存入
				爬蟲大作業
1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式，從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析，生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格，描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...
				爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式，從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析，生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格，描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...
				爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式，從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析，生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格，描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...
爬蟲大作業

爬蟲大作業

爬蟲大作業

爬蟲大作業

相關推薦