真的有好久好久沒有寫部落格了,今天就隨便寫乙個吧,利用簡單的python知識爬取某網頁的文字資訊並寫入到本地
**如下
import urllib.request
import re
'''豆瓣出版社資訊爬取
實際上爬蟲需要幾個步驟:
1.明確目標(要知道你準備在哪個範圍或者**去爬取資料)
2.爬(將**的全部內容爬取下來)
3.取(從爬取的全部資料中取到有價值的資訊,或者換一句話說,就是捨棄掉無用的資料)
4.處理資料(按照我們想要的方式儲存和使用,本地儲存或者資料庫儲存)
北京郵電大學出版社
百花洲文藝出版社
電子工業出版社
'''# 爬取網頁源**
data = urllib.request.urlopen("").read().decode("utf-8")
# print(data)
# 使用正規表示式,從原始碼中匹配出有價值的資訊(出版社名稱)
pat = '
'result = re.compile(pat).findall(data)
print(len(result))
print(result)
# 將爬取到的出版社資訊儲存到本地
file = open("chuabnshe.txt","w",encoding="utf-8")
for i in range(0,len(result)):
file.write(result[i] + "\n")
print("寫入成功!")
file.close()
python練習簡單爬取豆瓣網top250電影資訊
因為有的電影詳情裡沒有影片的又名,所以沒有爬取電影的又名。基本思路 爬取top250列表頁展示中電影的排行榜排名,電影詳情鏈結,電影名稱。然後通過電影鏈結進入到詳情頁,獲取詳情頁的原始碼,再進行爬取,爬取後的資料儲存在字典中,通過字典儲存在mongo資料庫中的。from urllib.request...
python利用Ajax分析方法爬取豆瓣劇情片排行
需要的庫 requests urllib.parse下的urlencode json csvtime 通過檢視network中的ajax請求的xhr檔案發現這條ajax請求包含的資訊如下 可以看到,包含了前20條電影的所有資訊 當再次向下滑動時,會出現新的xhr檔案 每個新的xhr檔案內包含了20條...
爬取豆瓣網電影資訊
coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...