'''1.將網易新聞頁面以html的形式儲存到本地
'''#以字典的形式設定headers
"accept-language": "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3",
"user-agent": "mozilla/5.0 (windows nt 6.1; wow64; rv:54.0) gecko/20100101 firefox/54.0",
"connection": "keep-alive",
"referer": ""}
#設定cookie
#建立空列表,為了以指定格式儲存頭資訊
headall =
#通過for迴圈遍字典,構造出指定格式的headers資訊
for key,value in headers.items():
item = (key,value)
#將指定格式的headers資訊新增好
opener.addheaders = headall
#將opener安裝為全域性
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read()
fhandle = open("d:/python/data/163/1.html","wb")
fhandle.write(data)
fhandle.close()
'''2.提取網易新聞標題和正文內容資訊
'''html1 = urllib.request.urlopen(url).read().decode('gbk')
html1 = str(html1)
soup1 = beautifulsoup(html1,'lxml')
#提取新聞標題
result1 = soup1.find_all("h1")
title = result1[0].string
print("新聞標題為:{}".format(title))
soup2 = beautifulsoup(html1,'lxml')
#提取正文所在區塊
result2 = soup1.find_all(attrs=)
result2 = str(result2)
#print(result2)
soup3 = beautifulsoup(html1,'lxml')
#提取正文文字內容
result3= soup1.find_all("p")
content = result3[5:8]
print("新聞正文內容為:")
for i in content:
print(i.string)
實現結果如下圖所示:
本文只實現了網易新聞內容的簡單提取,但正文資訊提取時還需要手動設定區間範圍,不夠靈活,還有待進一步完善。
Python 爬蟲例項(4) 爬取網易新聞
自己閒來無聊,就爬取了網易資訊,重點是分析網頁,使用抓包工具詳細的分析網頁的每個鏈結,資料儲存在sqllite中,這裡只是簡單的解析了新聞頁面的文字資訊,並未對資訊進行解析 僅供參考,不足之處請指正 coding utf 8 import random,re import sqlite3 impor...
python爬蟲獲取新浪新聞教學
一提到python,大家經常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大資料的原因,大資料導致了我們的資料不在只存在於自己的伺服器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞 1 大家知道,爬蟲實際上就是模擬程式設計客棧瀏覽器請求,然後把請求到的資料...
網路爬蟲(四) 使用Scrapy爬取網易新聞
import scrapy class newsitem scrapy.item news thread scrapy.field news title scrapy.field news url scrapy.field news time scrapy.field news source scr...