import re
from selenium import webdriver
from selenium.webdriver.chrome.options import options
# 通過獲取關鍵字職位數量
def numberpositionsbykeyword
(searchword)
: # 建立chrome引數物件
chrome_options =
options()
# 把chrome設定成無介面模式,不論windows還是linux都可以,自動適配對應引數
chrome_options.
set_headless()
# 模擬瀏覽器開啟網頁
url =
""+ searchword +
",2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2c0&radius=-1&ord_field=0&confirmdate=9&fromtype=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
browser = webdriver.
chrome
(executable_path =
,chrome_options = chrome_options)
browser.
get(url)
# 設定智慧型等待時間
browser.
implicitly_wait(20
) pagestr = browser.page_source
# 正規表示式
()只要括號內的資料
restr =
"""rt">([\s\s]*?)"""
regex = re.
compile
(restr, re.
ignorecase
) mylist = regex.
findall
(pagestr)
changestr = mylist[0]
.strip()
restr =
"(\\d+)"
regex = re.
compile
(restr, re.
ignorecase
) mylist = regex.
findall
(changestr)
browser.
quit()
return mylist[0]
numberpositionsbykeyword
("資料分析師"
)
使用selenium爬取動態網頁評論
爬取 通過ctrl shift c定位,並且搜尋frame,定位框架所在位置 找到html iframe title livere scrolling no src style min width 100 width 100px height 6177px overflow hidden borde...
利用selenium獲取動態頁面的html資料
selenium呼叫瀏覽器獲取動態html值,再呼叫其api,可以很方面獲取動態資料。經測試,確實簡單易用,至於效率方面就沒細究了。參考 向原作者致敬 前言 我看其他文章中說到設定環境變數path,還提及selenium server和selenium rc,我這篇文章沒那麼複雜,沒有設定path,...
利用python實現動態陣列
說動態陣列之前,首先要說陣列,陣列是一種順序儲存的線性表,所有元素的記憶體位址都是連續的。陣列的最大優點是他的查詢時間複雜度能夠達到o 1 但是增和刪的時間複雜度較高o n 動態陣列,即根據使用者的輸入動態擴充或縮小當前陣列的容量。在python中,已經內建了動態陣列,叫做列表,list 下面是利用...