話不多說,直接上**!
from bs4 import beautifulsoup
import urllib2
import json # 使用了json格式儲存
deftengxun
(detail,num)
: url =
''# detail = 'position.php?&start=0#a'
request = urllib2.request(url + detail)
response =urllib2.urlopen(request)
reshtml = response.read(
) soup = beautifulsoup(reshtml,
'html.parser'
, from_encoding=
'utf-8'
) result = soup.select(
".even"
) result += soup.select(
".odd"
)# print len(result)
# 處理頁面
items =
for node in result:
item =
# 職位名
zname = node.select(
'td')[
0].get_text(
)# 職位類別
ztype = node.select(
'td')[
1].get_text(
)# 人數
znum = node.select(
'td')[
2].get_text(
)# 地點
zlocal = node.select(
'td')[
3].get_text(
)# 發布時間
ztime = node.select(
'td')[
4].get_text(
)# 鏈結
detaillink = node.select(
'td a')[
0].attrs[
'href'
]# 獲取工作職責、工作要求
request1 = urllib2.request(url + detaillink)
response1 = urllib2.urlopen(request1)
jobhtml = response1.read(
) soup1 = beautifulsoup(jobhtml,
'html.parser'
, from_encoding=
'utf-8'
)# print len(soup1.select('ul.squareli'))
# 工作職責
jobres =
''for li in soup1.select(
'ul.squareli')[
0].select(
'li'):
jobres += li.get_text()+
'\n'
# 工作要求
jobreq =
''for li in soup1.select(
'ul.squareli')[
1].select(
'li'):
jobreq += li.get_text()+
'\n'
# print jobreq
# 將資料存入item中
item[
'zname'
]=zname;
item[
'detaillink'
]= detaillink;
item[
'ztype'
]=ztype
item[
'znum'
]= znum
item[
'zlocal'
]= zlocal
item[
'ztime'
]= ztime
item[
'jobres'
]= jobres
item[
'jobreq'
]= jobreq
# 處理工作職責和工作要求
origin =
print
(len
(items)
)# 以json格式輸出到檔案中
# 禁用ascii編碼,按utf-8編碼
output =
open
('tencent.json'
+str
(num)
,'w'
)for i in origin:
line = json.dumps(items, ensure_ascii=
false);
# print line
output.write(line.encode(
'utf-8'))
output.close(
)for i in
range
(303):
print
("進行到第"
+str
(i)+
"頁")
url =
'position.php?&start='
+str
(i *10)
+'#a'
tengxun(url, i)
python爬蟲爬取騰訊招聘資訊 (靜態爬蟲)
環境 windows7,python3.4 親測可正常執行 1 import requests 2from bs4 import beautifulsoup 3from math import ceil 45 header 78 9 獲取崗位頁數 10def getjobpage url 11 re...
python爬蟲 爬取51job網招聘資訊
專案概覽 在搜尋頁中,所有符合條件的職位資訊以列表的形式排序設有分頁顯示。每條職位資訊是乙個url 位址,通過url 位址可以進入該職位的詳情頁。職位詳情頁也是資料爬取的頁面,爬取的資料資訊有 職位名稱 企業名稱 待遇 福利以及職位要求等等。專案框架 具體步驟 一 獲取城市編號def get cit...
Python爬取拉勾網招聘資訊
最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...