簡單利用Python爬取豆瓣網某網頁的出版社資訊

2021-09-08 21:49:47 字數 832 閱讀 6563

真的有好久好久沒有寫部落格了,今天就隨便寫乙個吧,利用簡單的python知識爬取某網頁的文字資訊並寫入到本地

**如下

import urllib.request

import re

'''豆瓣出版社資訊爬取

實際上爬蟲需要幾個步驟:

1.明確目標(要知道你準備在哪個範圍或者**去爬取資料)

2.爬(將**的全部內容爬取下來)

3.取(從爬取的全部資料中取到有價值的資訊,或者換一句話說,就是捨棄掉無用的資料)

4.處理資料(按照我們想要的方式儲存和使用,本地儲存或者資料庫儲存)

北京郵電大學出版社

百花洲文藝出版社

電子工業出版社

'''# 爬取網頁源**

data = urllib.request.urlopen("").read().decode("utf-8")

# print(data)

# 使用正規表示式,從原始碼中匹配出有價值的資訊(出版社名稱)

pat = '

'result = re.compile(pat).findall(data)

print(len(result))

print(result)

# 將爬取到的出版社資訊儲存到本地

file = open("chuabnshe.txt","w",encoding="utf-8")

for i in range(0,len(result)):

file.write(result[i] + "\n")

print("寫入成功!")

file.close()

python練習簡單爬取豆瓣網top250電影資訊

因為有的電影詳情裡沒有影片的又名,所以沒有爬取電影的又名。基本思路 爬取top250列表頁展示中電影的排行榜排名,電影詳情鏈結,電影名稱。然後通過電影鏈結進入到詳情頁,獲取詳情頁的原始碼,再進行爬取,爬取後的資料儲存在字典中,通過字典儲存在mongo資料庫中的。from urllib.request...

python利用Ajax分析方法爬取豆瓣劇情片排行

需要的庫 requests urllib.parse下的urlencode json csvtime 通過檢視network中的ajax請求的xhr檔案發現這條ajax請求包含的資訊如下 可以看到,包含了前20條電影的所有資訊 當再次向下滑動時,會出現新的xhr檔案 每個新的xhr檔案內包含了20條...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...