簡易爬蟲爬取51job招聘資訊

2021-08-11 04:42:10 字數 1182 閱讀 3301

目標:

上的python相關招聘資訊——>入門級別

import re

import urllib.request

class

grab

(object):

# 定義類屬性

num = 0

def__init__

(self):

# 請求的**

self.url = ""

# 請求頭

self.headers =

defopenurl

(self):

# 建立請求物件

fin_url = urllib.request.request(url=self.url,headers=self.headers)

# 請求**

read_data = urllib.request.urlopen(fin_url)

# 讀取內容

data = read_data.read().decode("gbk")

# 正則匹配字元,取出存放資訊的鏈結

# 遍歷存放鏈結的列表

for i in mes_list:

self.deal(i)

defdeal

(self,url):

# 請求取出的**

files = urllib.request.urlopen(url)

# 讀取**

data = files.read()

# 正則匹配內容

find_list = re.findall(r"",data.decode("gbk"))

# 開啟檔案寫入

new_file = open("zhaopin"+"/"+str(grab.num)+".txt","w")

new_file.write(str(find_list))

new_file.close()

grab.num += 1

defmain

():# 建立物件

g = grab()

g.openurl()

if __name__ == "__main__":

main()

python爬蟲 爬取51job網招聘資訊

專案概覽 在搜尋頁中,所有符合條件的職位資訊以列表的形式排序設有分頁顯示。每條職位資訊是乙個url 位址,通過url 位址可以進入該職位的詳情頁。職位詳情頁也是資料爬取的頁面,爬取的資料資訊有 職位名稱 企業名稱 待遇 福利以及職位要求等等。專案框架 具體步驟 一 獲取城市編號def get cit...

爬取51job的資訊

coding utf 8 import scrapy from items import jobspideritem class jobspider scrapy.spider name job allowed domains 51job.com start urls def parse self,...

爬取51job職位資訊

首先獲取一下所有城市對應的key值,找到所有城市所在的json字串,向json所在的js頁面傳送請求,獲取資訊,然後從第一頁獲取總的頁數,然後遍歷所有頁數,每到新的一頁,找到所有職位資訊的詳情頁url,遍歷詳情頁,獲取所要的職位資訊。請求並解析城市編碼函式 return 返回乙個字典 decode ...