python爬蟲學習（六）

【1】適用**及場景 : 抓取需要登入才能訪問的頁面

所抓資料報資訊

5.1) post_url:

5.2) form data:

ck:name: 13603263409

password: 111

remember: false

ticket:

```python
"""方法三**實現"""
import requests
session = requests.session()
def login():
post_url = ''
post_data = 
session.post(url=post_url,data=post_data,headers=headers)
url = '自己個人主頁的url位址'
html = session.get(url=url,headers=headers).text
print(html)
login()

from selenium import webdriver

import time

browser = webdriver.chrome()

browser.get(『

browser.find_element_by_xpath(』//*[@id=「kw」]』).send_keys(『趙麗穎』)

browser.find_element_by_xpath(』//*[@id=「su」]』).click()

* **瀏覽器物件(browser)方法**
```python
browser = webdriver.chrome(executable_path='path')
browser.get(url)
browser.page_source # html結構原始碼
browser.page_source.find('字串')
# 從html原始碼中搜尋指定字串,沒有找到返回：-1,經常用於判斷是否為最後一頁
browser.close() # 關閉當前頁
browser.quit() # 關閉瀏覽器

)

time.sleep(2)

搜尋內容: 爬蟲書

li_list = [,,…]

for li in li_list:

方法1: print(li.text)

方法2: item[『name』]=li.find_element_by_xpath(』』)

一定要注意給頁面元素載入預留時間

執行js指令碼

## **思考** python 多執行緒改寫 - 鏈家二手房案例

多執行緒改寫 - 汽車之家案例

python爬蟲系列（六）

由於時間安排本週只更新一篇前面我們已經可以讀取的源了現在為了方便管理我們往往需要將其儲存。當然這裡就不得不說到資料庫這個東東比如mysql，當然鑑於目前只是基礎教程，我們不講太複雜的東西。這裡我們可以使用urllib.request.urlretrieve python open 方法用於開啟...

python爬蟲六反爬蟲技術種類

zhuanlan.zhihu.com referer ehco 知乎很多都會建立 user agent白名單，只有屬於正常範圍的user agent才能夠正常訪問。模擬header的user agent欄位，返回乙個隨機的user agent字典型別的鍵值對 agents mozilla 5.0...

Python爬蟲學習

最近由於需要，用python寫了爬蟲爬取資料。在這個過程中，認識到學習一門語言最好的辦法是動手，別無技巧。在動手程式設計的過程中，遇到了很多意想不到的問題，當然也學習了很多書本上不會講述的知識，感覺這才是真正的學習知識。在這個過程中，遇到的乙個問題讓我花費了很久時間，留下了很深的印象。擔心會隨著時...

python爬蟲學習（六）

python爬蟲系列（六）

python爬蟲六 反爬蟲技術種類

Python爬蟲學習

相關推薦

python爬蟲六反爬蟲技術種類