由於任務需求,要關注鳳凰新聞網相關報道,要做到出現相關報道報警來通知我,時間緊湊,本人水平也有限,寫的比較簡單,請見諒。如有人實現過類似功能,也請多多指教。下面直接貼**了。
#_*_ coding:utf-8 _*_
from bs4 import beautifulsoup
import urllib
import codecs
import time
import os
def setstr(st):
instr = st.split();
outstr=''
for it in instr:
outstr=outstr+it+' '
return outstr
def findstr(ite):
if (ite.find(u'關鍵字1')!=-1) or (ite.find(u'關鍵字2')!=-1) or (ite.find(u'關鍵字3')!=-1):
f = codecs.open('sys.txt','a+','utf-8')
txt = f.read()
if txt.find(ite)==-1:
f.write(ite)
f.write('\r\n')
f.close()
return 1
else:
f.close()
return 0
else:
return 0
def fun(url):
soup = beautifulsoup(urllib.urlopen(url).read())
s0 = soup.find_all('div',)
s1=beautifulsoup(s0[0].prettify())
s2= s1.find_all('li')
for item in s2:
sss=item.get_text().lstrip().rstrip().replace('\n','')
str1=setstr(sss)
if findstr(str1):
os.system("start wmplayer.exe c:\\sound.***")
print str1
if __name__=="__main__":
url = ''
while(1):
fun(url)
time.sleep(60)
python實現新浪新聞爬蟲
將爬取的新聞 儲存到資料夾e sinanews 中,成功後直接通過瀏覽器開啟。import urllib.request import re data urllib.request.urlopen read data2 data.decode utf 8 ignore 加第二個引數ignore pa...
TiDB 在鳳凰網新聞內容業務的創新實踐
在 行業,新聞內容就是核心的業務資料,我們需要乙個穩定的 具有高可用的 易水平擴充套件的資料儲存系統,來存放公司核心資料,在最早,我們採用比較流行的 mysql 來儲存各個業務模組的內容,通過主從切換的方式進行高可用,但隨著資料量的增加,mysql 單機容量成為了瓶頸,傳統的基於 mysql 分片方...
TiDB 在鳳凰網新聞內容業務的創新實踐
在 行業,新聞內容就是核心的業務資料,我們需要乙個穩定的 具有高可用的 易水平擴充套件的資料儲存系統,來存放公司核心資料,在最早,我們採用比較流行的 mysql 來儲存各個業務模組的內容,通過主從切換的方式進行高可用,但隨著資料量的增加,mysql 單機容量成為了瓶頸,傳統的基於 mysql 分片方...