python爬蟲學習(六)

2021-10-06 03:59:46 字數 1448 閱讀 8348

【1】適用**及場景 : 抓取需要登入才能訪問的頁面
所抓資料報資訊

5.1) post_url:

5.2) form data:

ck:name: 13603263409

password: 111

remember: false

ticket:

```python

"""方法三**實現"""

import requests

session = requests.session()

def login():

post_url = ''

post_data =

session.post(url=post_url,data=post_data,headers=headers)

url = '自己個人主頁的url位址'

html = session.get(url=url,headers=headers).text

print(html)

login()

from selenium import webdriver

import time

browser = webdriver.chrome()

browser.get(『

browser.find_element_by_xpath(』//*[@id=「kw」]』).send_keys(『趙麗穎』)

browser.find_element_by_xpath(』//*[@id=「su」]』).click()

* **瀏覽器物件(browser)方法**

```python

browser = webdriver.chrome(executable_path='path')

browser.get(url)

browser.page_source # html結構原始碼

browser.page_source.find('字串')

# 從html原始碼中搜尋指定字串,沒有找到返回:-1,經常用於判斷是否為最後一頁

browser.close() # 關閉當前頁

browser.quit() # 關閉瀏覽器

)

time.sleep(2)

搜尋內容: 爬蟲書

li_list = [,,…]

for li in li_list:

方法1: print(li.text)

方法2: item[『name』]=li.find_element_by_xpath(』』)

一定要注意給頁面元素載入預留時間

執行js指令碼

## **思考**

python

多執行緒改寫 - 鏈家二手房案例

多執行緒改寫 - 汽車之家案例

python爬蟲系列(六)

由於時間安排本週只更新一篇 前面我們已經可以讀取 的源 了現在為了方便管理我們往往需要將其儲存。當然這裡就不得不說到資料庫這個東東比如mysql,當然鑑於目前只是基礎教程,我們不講太複雜的東西。這裡我們可以使用urllib.request.urlretrieve python open 方法用於開啟...

python爬蟲六 反爬蟲技術種類

zhuanlan.zhihu.com referer ehco 知乎 很多 都會建立 user agent白名單,只有屬於正常範圍的user agent才能夠正常訪問。模擬header的user agent欄位,返回乙個隨機的user agent字典型別的鍵值對 agents mozilla 5.0...

Python爬蟲學習

最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...