簡單利用Python爬取豆瓣網某網頁的出版社資訊

真的有好久好久沒有寫部落格了，今天就隨便寫乙個吧，利用簡單的python知識爬取某網頁的文字資訊並寫入到本地

**如下

import urllib.request
import re
'''豆瓣出版社資訊爬取
實際上爬蟲需要幾個步驟：
1.明確目標（要知道你準備在哪個範圍或者**去爬取資料）
2.爬（將**的全部內容爬取下來）
3.取（從爬取的全部資料中取到有價值的資訊，或者換一句話說，就是捨棄掉無用的資料）
4.處理資料（按照我們想要的方式儲存和使用，本地儲存或者資料庫儲存）
北京郵電大學出版社
百花洲文藝出版社
電子工業出版社
'''# 爬取網頁源**
data = urllib.request.urlopen("").read().decode("utf-8")
# print(data)
# 使用正規表示式，從原始碼中匹配出有價值的資訊（出版社名稱）
pat = '
'result = re.compile(pat).findall(data)
print(len(result))
print(result)
# 將爬取到的出版社資訊儲存到本地
file = open("chuabnshe.txt","w",encoding="utf-8")
for i in range(0,len(result)):
file.write(result[i] + "\n")
print("寫入成功！")
file.close()

python練習簡單爬取豆瓣網top250電影資訊

因為有的電影詳情裡沒有影片的又名，所以沒有爬取電影的又名。基本思路爬取top250列表頁展示中電影的排行榜排名，電影詳情鏈結，電影名稱。然後通過電影鏈結進入到詳情頁，獲取詳情頁的原始碼，再進行爬取，爬取後的資料儲存在字典中，通過字典儲存在mongo資料庫中的。from urllib.request...

python利用Ajax分析方法爬取豆瓣劇情片排行

需要的庫 requests urllib.parse下的urlencode json csvtime 通過檢視network中的ajax請求的xhr檔案發現這條ajax請求包含的資訊如下可以看到，包含了前20條電影的所有資訊當再次向下滑動時，會出現新的xhr檔案每個新的xhr檔案內包含了20條...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介，包括電影名，導演，評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

簡單利用Python爬取豆瓣網某網頁的出版社資訊

python練習簡單爬取豆瓣網top250電影資訊

python利用Ajax分析方法爬取豆瓣劇情片排行

爬取豆瓣網電影資訊

相關推薦