#-*- coding: utf-8 -*- #解決編碼問題
import
urllib
import
urllib2
import
reimport
osimport
time
page = 1url = '
'#爬取的目標**
user_agent = '
mozilla/4.0 (compatible; msie 5.5; windows nt)
'headers =
try:
request = urllib2.request(url,headers =headers)
response =urllib2.urlopen(request)
#print response.read()
content = response.read().decode('
utf-8
') #
解決編碼問題
pattern = re.compile(r'
(.*?).*?
',re.s) #
第乙個引數是匹配要爬取的內容,這裡使用正則去匹配
items =re.findall(pattern,content)
f=open(r'
.\article.txt
','ab
') #
txt檔案路徑
nowtimes = time.strftime('
%y-%m-%d %h:%m:%s
',time.localtime(time.time())) #
獲取當前時間
f.write('
'.format(nowtimes),); #
txt檔案中寫入時間
for i in
items:
i.encode(
'utf-8')
agent_info = u''.join(i).encode('
utf-8
').strip()
f.writelines(
'段子:%s%s\n
'%(str(agent_info),os.linesep)) #
分行存入
爬蟲大作業
1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...
爬蟲大作業
1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...