如果仔細觀察的話就會發現,有乙個特殊的,那麼這個就是自己想要的了
接下來就是**了(也照著大神的改改寫寫了)。
#coding=utf-8
import urllib2
import re
import json
import time
class wy():
def __init__(self):
self.url=''
def getpage(self,page):
full_url=''+str(page)+'.html'
return full_url
def gethtml(self,page):
try:
req=urllib2.request(page,none,self.headers)
response = urllib2.urlopen(req)
html = response.read()
return html
except urllib2.urlerror,e:
if hasattr(e,'reason'):
print u"連線失敗",e.reason
return none
#處理字串
def process(self,data,page):
if page == 1:
data=data.replace('var replydata=','')
else:
data=data.replace('var newpostlist=','')
reg1=re.compile(" \[")
data=reg1.sub(' ',data)
reg2=re.compile('\]')
data=reg2.sub('',data)
reg3=re.compile('
') data=reg3.sub('',data)
return data
#解析json
def dealjson(self):
with open("wy.txt","a") as file:
for i in range(1,12):
if i == 1:
data=self.gethtml(self.url)
data=self.process(data,i)[:-1]
value=json.loads(data)
file=open('wy.txt','a')
for item in value['hotposts']:
try:
file.write(item['1']['f'].encode('utf-8')+'|')
file.write(item['1']['b'].encode('utf-8')+'|')
file.write(item['1']['a'].encode('utf-8')+'|')
file.write(item['1']['v'].encode('utf-8')+'\n')
except:
continue
file.close()
print '--正在採集%d/12--'%i
time.sleep(5)
else:
page=self.getpage(i)
data = self.gethtml(page)
data = self.process(data,i)[:-2]
# print data
value=json.loads(data)
# print value
file=open('wy.txt','a')
for item in value['newposts']:
try:
file.write(item['1']['f'].encode('utf-8')+'|')
file.write(item['1']['b'].encode('utf-8')+'|')
file.write(item['1']['a'].encode('utf-8')+'|')
file.write(item['1']['v'].encode('utf-8')+'\n')
except:
continue
file.close()
print '--正在採集%d/12--'%i
time.sleep(5)
if __name__ == '__main__':
wy().dealjson()
以上就是我爬取的**了。 爬取網易新聞
爬取網易新聞 在本小節的內容中呢,筆者將會給大家講述如何去過濾我們所不需要的內容。下面的例子,是本人在爬取網易新聞時,遇到的乙個小問題,在定位元素之後,進行列印的時候,出現了部分內容無法正常解析。筆者也是進行了很長時間的嘗試,請教了很多人,才得到的三種方法。我們一起來看。通過寫入檔案的方法過濾元素 ...
網易新聞 rss RSS新聞提要簡介
網易新聞 rss 存檔日期 2019年5月14日 首次發布 2000年11月10日 rdf 摘要 rss 正在成為web上最廣泛使用的xml格式之一。了解如何建立和使用rss檔案,並了解它們可以為您做些什麼。了解為什麼像netscape,userland和another這樣的公司使用rss分發和聯合...
如何抓取新浪新聞資訊
如何將特殊標籤或節點的資料取出來。可以通過beautifulsoup中的select方法。例子frombs4importbeautifulsoup html sample this is link1 this is link2 soup beautifulsoup html sample,html....