1.取出乙個新聞列表頁的全部新聞 包裝成函式。
2.獲取總的新聞篇數,算出新聞總頁數。
3.獲取全部新聞列表頁的全部新聞詳情。
4.找乙個自己感興趣的主題,進行資料爬取,並進行分詞分析。不能與其它同學雷同。
#執行結果截圖:-*- coding: utf-8 -*-
import
requests
from bs4 import
beautifulsoup
from datetime import
datetime
importre#
獲取點選次數
defgetclickcount(newsurl):
newsid = re.findall('
\_(.*).html
', newsurl)[0].split('
/')[1]
clickurl = '
'.format(newsid)
clickstr =requests.get(clickurl).text
count = re.search("
hits'\).html\('(.*)'\);
",clickstr).group(1)
return
count
#獲取新聞詳情
defgetnewdetail(url):
resd =requests.get(url)
resd.encoding = '
utf-8
'soupd = beautifulsoup(resd.text, '
html.parser')
title = soupd.select('
.show-title
')[0].text
info = soupd.select('
.show-info
')[0].text
time = info.lstrip('
')[0:19]
dt = datetime.strptime(time, '
%y-%m-%d %h:%m:%s')
if info.find('
') >0:
source = info[info.find('
'):].split()[0].lstrip('')
else
: source = '
none
'if info.find('
') >0:
author = info[info.find('
'):].split()[0].lstrip('')
else
: author = '
none
'print('
'+url)
print('
' +title)
print('
'.format(dt))
print('
' +source)
print('
' +author)
print('
***********')
defgetlistpage(listpageurl):
res =requests.get(listpageurl)
res.encoding = '
utf-8
'soup = beautifulsoup(res.text, '
html.parser')
for news in soup.select('li'
):
if len(news.select('
.news-list-title
')) >0:
#獲取新聞模組鏈結
a = news.a.attrs['
href']
#呼叫函式獲取新聞正文
getnewdetail(a)
#首頁列表新聞
#getlistpage('')
#計算總頁數
resn = requests.get('
')resn.encoding = '
utf-8
'soupn = beautifulsoup(resn.text,'
html.parser')
n = int(soupn.select('
.a1')[0].text.rstrip('
條'))//10+1
for i in range(n,n+1):
pageurl = '
{}.html
'.format(i)
getlistpage(pageurl)
字數 '
)article = list(jieba.lcut(soup.select('p'
)[0].text))
print('
'+title)
print('
'.format(dt))
print('
字數'+words)
print('
分詞後的正文:')
print(article)
獲取全部校園新聞
1.取出乙個新聞列表頁的全部新聞 包裝成函式。2.獲取總的新聞篇數,算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。4.找乙個自己感興趣的主題,進行資料爬取,並進行分詞分析。不能與其它同學雷同。import requests from bs4 import beautifulsoup from...
獲取全部校園新聞
1.取出乙個新聞列表頁的全部新聞 包裝成函式。2.獲取總的新聞篇數,算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。import requests from bs4 import beautifulsoup from datetime import datetime importre 獲得新聞...
獲取全部校園新聞
1.取出乙個新聞列表頁的全部新聞 包裝成函式。2.獲取總的新聞篇數,算出新聞總頁數。3.獲取全部新聞列表頁的全部新聞詳情。import requests from bs4 import beautifulsoup from datetime import datetime importre 獲取新聞...