python實現鳳凰新聞監控

2021-07-02 06:42:12 字數 1259 閱讀 9599

由於任務需求,要關注鳳凰新聞網相關報道,要做到出現相關報道報警來通知我,時間緊湊,本人水平也有限,寫的比較簡單,請見諒。如有人實現過類似功能,也請多多指教。下面直接貼**了。

#_*_ coding:utf-8 _*_

from bs4 import beautifulsoup

import urllib

import codecs

import time

import os

def setstr(st):

instr = st.split();

outstr=''

for it in instr:

outstr=outstr+it+' '

return outstr

def findstr(ite):

if (ite.find(u'關鍵字1')!=-1) or (ite.find(u'關鍵字2')!=-1) or (ite.find(u'關鍵字3')!=-1):

f = codecs.open('sys.txt','a+','utf-8')

txt = f.read()

if txt.find(ite)==-1:

f.write(ite)

f.write('\r\n')

f.close()

return 1

else:

f.close()

return 0

else:

return 0

def fun(url):

soup = beautifulsoup(urllib.urlopen(url).read())

s0 = soup.find_all('div',)

s1=beautifulsoup(s0[0].prettify())

s2= s1.find_all('li')

for item in s2:

sss=item.get_text().lstrip().rstrip().replace('\n','')

str1=setstr(sss)

if findstr(str1):

os.system("start wmplayer.exe c:\\sound.***")

print str1

if __name__=="__main__":

url = ''

while(1):

fun(url)

time.sleep(60)

python實現新浪新聞爬蟲

將爬取的新聞 儲存到資料夾e sinanews 中,成功後直接通過瀏覽器開啟。import urllib.request import re data urllib.request.urlopen read data2 data.decode utf 8 ignore 加第二個引數ignore pa...

TiDB 在鳳凰網新聞內容業務的創新實踐

在 行業,新聞內容就是核心的業務資料,我們需要乙個穩定的 具有高可用的 易水平擴充套件的資料儲存系統,來存放公司核心資料,在最早,我們採用比較流行的 mysql 來儲存各個業務模組的內容,通過主從切換的方式進行高可用,但隨著資料量的增加,mysql 單機容量成為了瓶頸,傳統的基於 mysql 分片方...

TiDB 在鳳凰網新聞內容業務的創新實踐

在 行業,新聞內容就是核心的業務資料,我們需要乙個穩定的 具有高可用的 易水平擴充套件的資料儲存系統,來存放公司核心資料,在最早,我們採用比較流行的 mysql 來儲存各個業務模組的內容,通過主從切換的方式進行高可用,但隨著資料量的增加,mysql 單機容量成為了瓶頸,傳統的基於 mysql 分片方...