selenium安裝及環境搭建
首先我們通過url來解析頁面,再對頁面的資訊進行爬取
'''
引入必要的包
'''from selenium.webdriver import firefox
from selenium.webdriver.firefox.options import options
#通過spider方法便可以獲取乙個動態的頁面,然後就可以使用靜態頁面的爬取方法進行獲取需要的資訊了
def get(url):
opt = options()
opt.add_argument('-headless')
driver = firefox(options=opt)
driver.get(url)
html = driver.page_source
driver.quit()
return html
#####################################
# 設定firefox為無介面瀏覽器
options = options()
options.add_argument('--headless')
# 開啟瀏覽器
browser = webdriver.firefox(options=options)
# 利用get請求請求瀏覽器的乙個網頁
browser.get(url=url)
# 列印輸出這個網頁的源**
print(browser.page_source)
# 關閉瀏覽器
browser.close()
# 殺死chrome瀏覽器的連線橋(chromedriver)的程序
browser.quit()
通過上面其實已經獲取到了頁面的資訊可以通過pyquery來進行資料的爬取
def spider(url):
html = get(url)
doc = pq(html)
img = doc('img').items()
for i in img:
print(i.attr('src'))
#通過pq對html進行初始化 變為pyquery物件然後獲取頁面中的全部鏈結並輸出
if __name__ == '__main__':
spider('')
爬取動態載入的資料
下面展示一些 要請求到每一家企業的id,對應的header裡 import requests url 首頁的url data headers fp open company detail.txt w encoding utf 8 該json 的返回值中就有每家企業的id值 data dic requ...
爬蟲學習3 Python爬取動態頁面思路(一)
chrome瀏覽器 果殼網 科學人 頁面 1.進入果殼網 科學人分頁 2.f12開啟 審查元素 選則network窗格並重新整理頁面以抓包 3.在頁面上滑動滑鼠滾輪使頁面向下 此時可以看到頁面是動態載入的 相應的在監控視窗可以看到有資料收發 下圖紅圈處 所以非同步傳輸資料必然是在此時發生的 4.雙擊...
python爬蟲學習 爬取網頁中的動態資料
在之前的爬蟲豆瓣電影top250學習中,爬取的內容都直接在網頁原始碼中,而實際上很多資料都是在網頁中實時ajax請求,並不會顯示在源 中 例如豆瓣電影分類排行榜 動作片為例,開啟f12,選擇network xhr,當向下滑動網頁時,我們可以看到新的檔案出現 通過鏈結 我們大體可以猜測出start與l...