抓取網易新聞

2021-07-08 10:53:36 字數 2466 閱讀 9529

如果仔細觀察的話就會發現,有乙個特殊的,那麼這個就是自己想要的了

接下來就是**了(也照著大神的改改寫寫了)。

#coding=utf-8

import urllib2

import re

import json

import time

class wy():

def __init__(self):

self.url=''

def getpage(self,page):

full_url=''+str(page)+'.html'

return full_url

def gethtml(self,page):

try:

req=urllib2.request(page,none,self.headers)

response = urllib2.urlopen(req)

html = response.read()

return html

except urllib2.urlerror,e:

if hasattr(e,'reason'):

print u"連線失敗",e.reason

return none

#處理字串

def process(self,data,page):

if page == 1:

data=data.replace('var replydata=','')

else:

data=data.replace('var newpostlist=','')

reg1=re.compile(" \[")

data=reg1.sub(' ',data)

reg2=re.compile('\]')

data=reg2.sub('',data)

reg3=re.compile('

') data=reg3.sub('',data)

return data

#解析json

def dealjson(self):

with open("wy.txt","a") as file:

for i in range(1,12):

if i == 1:

data=self.gethtml(self.url)

data=self.process(data,i)[:-1]

value=json.loads(data)

file=open('wy.txt','a')

for item in value['hotposts']:

try:

file.write(item['1']['f'].encode('utf-8')+'|')

file.write(item['1']['b'].encode('utf-8')+'|')

file.write(item['1']['a'].encode('utf-8')+'|')

file.write(item['1']['v'].encode('utf-8')+'\n')

except:

continue

file.close()

print '--正在採集%d/12--'%i

time.sleep(5)

else:

page=self.getpage(i)

data = self.gethtml(page)

data = self.process(data,i)[:-2]

# print data

value=json.loads(data)

# print value

file=open('wy.txt','a')

for item in value['newposts']:

try:

file.write(item['1']['f'].encode('utf-8')+'|')

file.write(item['1']['b'].encode('utf-8')+'|')

file.write(item['1']['a'].encode('utf-8')+'|')

file.write(item['1']['v'].encode('utf-8')+'\n')

except:

continue

file.close()

print '--正在採集%d/12--'%i

time.sleep(5)

if __name__ == '__main__':

wy().dealjson()

以上就是我爬取的**了。

爬取網易新聞

爬取網易新聞 在本小節的內容中呢,筆者將會給大家講述如何去過濾我們所不需要的內容。下面的例子,是本人在爬取網易新聞時,遇到的乙個小問題,在定位元素之後,進行列印的時候,出現了部分內容無法正常解析。筆者也是進行了很長時間的嘗試,請教了很多人,才得到的三種方法。我們一起來看。通過寫入檔案的方法過濾元素 ...

網易新聞 rss RSS新聞提要簡介

網易新聞 rss 存檔日期 2019年5月14日 首次發布 2000年11月10日 rdf 摘要 rss 正在成為web上最廣泛使用的xml格式之一。了解如何建立和使用rss檔案,並了解它們可以為您做些什麼。了解為什麼像netscape,userland和another這樣的公司使用rss分發和聯合...

如何抓取新浪新聞資訊

如何將特殊標籤或節點的資料取出來。可以通過beautifulsoup中的select方法。例子frombs4importbeautifulsoup html sample this is link1 this is link2 soup beautifulsoup html sample,html....