pyhton爬蟲（8）獲取網易新聞內容

'''1.將網易新聞頁面以html的形式儲存到本地

'''#以字典的形式設定headers

"accept-language": "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3",

"user-agent": "mozilla/5.0 (windows nt 6.1; wow64; rv:54.0) gecko/20100101 firefox/54.0",

"connection": "keep-alive",

"referer": ""}

#設定cookie

#建立空列表，為了以指定格式儲存頭資訊

headall =

#通過for迴圈遍字典，構造出指定格式的headers資訊

for key,value in headers.items():

item = (key,value)

#將指定格式的headers資訊新增好

opener.addheaders = headall

#將opener安裝為全域性

urllib.request.install_opener(opener)

data = urllib.request.urlopen(url).read()

fhandle = open("d:/python/data/163/1.html","wb")

fhandle.write(data)

fhandle.close()

'''2.提取網易新聞標題和正文內容資訊

'''html1 = urllib.request.urlopen(url).read().decode('gbk')

html1 = str(html1)

soup1 = beautifulsoup(html1,'lxml')

#提取新聞標題

result1 = soup1.find_all("h1")

title = result1[0].string

print("新聞標題為:{}".format(title))

soup2 = beautifulsoup(html1,'lxml')

#提取正文所在區塊

result2 = soup1.find_all(attrs=)

result2 = str(result2)

#print(result2)

soup3 = beautifulsoup(html1,'lxml')

#提取正文文字內容

result3= soup1.find_all("p")

content = result3[5:8]

print("新聞正文內容為:")

for i in content:

print(i.string)

實現結果如下圖所示：

本文只實現了網易新聞內容的簡單提取，但正文資訊提取時還需要手動設定區間範圍，不夠靈活，還有待進一步完善。

Python 爬蟲例項（4）爬取網易新聞

自己閒來無聊，就爬取了網易資訊，重點是分析網頁，使用抓包工具詳細的分析網頁的每個鏈結，資料儲存在sqllite中，這裡只是簡單的解析了新聞頁面的文字資訊，並未對資訊進行解析僅供參考，不足之處請指正 coding utf 8 import random,re import sqlite3 impor...

python爬蟲獲取新浪新聞教學

一提到python，大家經常會提到爬蟲，爬蟲近來興起的原因我覺得主要還是因為大資料的原因，大資料導致了我們的資料不在只存在於自己的伺服器，而python語言的簡便也成了爬蟲工具的首要語言，我們這篇文章來講下爬蟲，爬取新浪新聞 1 大家知道，爬蟲實際上就是模擬程式設計客棧瀏覽器請求，然後把請求到的資料...

網路爬蟲（四）使用Scrapy爬取網易新聞

import scrapy class newsitem scrapy.item news thread scrapy.field news title scrapy.field news url scrapy.field news time scrapy.field news source scr...

pyhton爬蟲（8） 獲取網易新聞內容

Python 爬蟲例項（4） 爬取網易新聞

python爬蟲獲取新浪新聞教學

網路爬蟲（四） 使用Scrapy爬取網易新聞

相關推薦

pyhton爬蟲（8）獲取網易新聞內容

Python 爬蟲例項（4）爬取網易新聞

網路爬蟲（四）使用Scrapy爬取網易新聞