抓取網易新聞

如果仔細觀察的話就會發現，有乙個特殊的，那麼這個就是自己想要的了

接下來就是**了(也照著大神的改改寫寫了)。

#coding=utf-8
import urllib2
import re
import json
import time
class wy():
def __init__(self):
self.url=''
def getpage(self,page):
full_url=''+str(page)+'.html'
return full_url
def gethtml(self,page):
try:
req=urllib2.request(page,none,self.headers)
response = urllib2.urlopen(req)
html = response.read()
return html
except urllib2.urlerror,e:
if hasattr(e,'reason'):
print u"連線失敗",e.reason
return none
#處理字串
def process(self,data,page):
if page == 1:
data=data.replace('var replydata=','')
else:
data=data.replace('var newpostlist=','')
reg1=re.compile(" \[")
data=reg1.sub(' ',data)
reg2=re.compile('\]')
data=reg2.sub('',data)
reg3=re.compile('
')        data=reg3.sub('',data)
return data
#解析json
def dealjson(self):
with open("wy.txt","a") as file:
for i in range(1,12):
if i == 1:
data=self.gethtml(self.url)
data=self.process(data,i)[:-1]
value=json.loads(data)
file=open('wy.txt','a')
for item in value['hotposts']:
try:
file.write(item['1']['f'].encode('utf-8')+'|')
file.write(item['1']['b'].encode('utf-8')+'|')
file.write(item['1']['a'].encode('utf-8')+'|')
file.write(item['1']['v'].encode('utf-8')+'\n')
except:
continue
file.close()
print '--正在採集%d/12--'%i
time.sleep(5)
else:
page=self.getpage(i)
data = self.gethtml(page)
data = self.process(data,i)[:-2]
# print data
value=json.loads(data)
# print value
file=open('wy.txt','a')
for item in value['newposts']:
try:
file.write(item['1']['f'].encode('utf-8')+'|')
file.write(item['1']['b'].encode('utf-8')+'|')
file.write(item['1']['a'].encode('utf-8')+'|')
file.write(item['1']['v'].encode('utf-8')+'\n')
except:
continue
file.close()
print '--正在採集%d/12--'%i
time.sleep(5)
if __name__ == '__main__':
wy().dealjson()

以上就是我爬取的**了。

爬取網易新聞

爬取網易新聞在本小節的內容中呢，筆者將會給大家講述如何去過濾我們所不需要的內容。下面的例子，是本人在爬取網易新聞時，遇到的乙個小問題，在定位元素之後，進行列印的時候，出現了部分內容無法正常解析。筆者也是進行了很長時間的嘗試，請教了很多人，才得到的三種方法。我們一起來看。通過寫入檔案的方法過濾元素 ...

網易新聞 rss RSS新聞提要簡介

網易新聞 rss 存檔日期 2019年5月14日首次發布 2000年11月10日 rdf 摘要 rss 正在成為web上最廣泛使用的xml格式之一。了解如何建立和使用rss檔案，並了解它們可以為您做些什麼。了解為什麼像netscape，userland和another這樣的公司使用rss分發和聯合...

如何抓取新浪新聞資訊

如何將特殊標籤或節點的資料取出來。可以通過beautifulsoup中的select方法。例子frombs4importbeautifulsoup html sample this is link1 this is link2 soup beautifulsoup html sample,html....

抓取網易新聞

爬取網易新聞

網易新聞 rss RSS新聞提要簡介

如何抓取新浪新聞資訊

相關推薦