目標:
上的python相關招聘資訊——>入門級別
import re
import urllib.request
class
grab
(object):
# 定義類屬性
num = 0
def__init__
(self):
# 請求的**
self.url = ""
# 請求頭
self.headers =
defopenurl
(self):
# 建立請求物件
fin_url = urllib.request.request(url=self.url,headers=self.headers)
# 請求**
read_data = urllib.request.urlopen(fin_url)
# 讀取內容
data = read_data.read().decode("gbk")
# 正則匹配字元,取出存放資訊的鏈結
# 遍歷存放鏈結的列表
for i in mes_list:
self.deal(i)
defdeal
(self,url):
# 請求取出的**
files = urllib.request.urlopen(url)
# 讀取**
data = files.read()
# 正則匹配內容
find_list = re.findall(r"",data.decode("gbk"))
# 開啟檔案寫入
new_file = open("zhaopin"+"/"+str(grab.num)+".txt","w")
new_file.write(str(find_list))
new_file.close()
grab.num += 1
defmain
():# 建立物件
g = grab()
g.openurl()
if __name__ == "__main__":
main()
python爬蟲 爬取51job網招聘資訊
專案概覽 在搜尋頁中,所有符合條件的職位資訊以列表的形式排序設有分頁顯示。每條職位資訊是乙個url 位址,通過url 位址可以進入該職位的詳情頁。職位詳情頁也是資料爬取的頁面,爬取的資料資訊有 職位名稱 企業名稱 待遇 福利以及職位要求等等。專案框架 具體步驟 一 獲取城市編號def get cit...
爬取51job的資訊
coding utf 8 import scrapy from items import jobspideritem class jobspider scrapy.spider name job allowed domains 51job.com start urls def parse self,...
爬取51job職位資訊
首先獲取一下所有城市對應的key值,找到所有城市所在的json字串,向json所在的js頁面傳送請求,獲取資訊,然後從第一頁獲取總的頁數,然後遍歷所有頁數,每到新的一頁,找到所有職位資訊的詳情頁url,遍歷詳情頁,獲取所要的職位資訊。請求並解析城市編碼函式 return 返回乙個字典 decode ...