【1】適用**及場景 : 抓取需要登入才能訪問的頁面
所抓資料報資訊
5.1) post_url:
5.2) form data:
ck:name: 13603263409
password: 111
remember: false
ticket:
```python
"""方法三**實現"""
import requests
session = requests.session()
def login():
post_url = ''
post_data =
session.post(url=post_url,data=post_data,headers=headers)
url = '自己個人主頁的url位址'
html = session.get(url=url,headers=headers).text
print(html)
login()
from selenium import webdriver
import time
browser = webdriver.chrome()
browser.get(『
browser.find_element_by_xpath(』//*[@id=「kw」]』).send_keys(『趙麗穎』)
browser.find_element_by_xpath(』//*[@id=「su」]』).click()
* **瀏覽器物件(browser)方法**
```python
browser = webdriver.chrome(executable_path='path')
browser.get(url)
browser.page_source # html結構原始碼
browser.page_source.find('字串')
# 從html原始碼中搜尋指定字串,沒有找到返回:-1,經常用於判斷是否為最後一頁
browser.close() # 關閉當前頁
browser.quit() # 關閉瀏覽器
)
time.sleep(2)
搜尋內容: 爬蟲書
li_list = [,,…]
for li in li_list:
方法1: print(li.text)
方法2: item[『name』]=li.find_element_by_xpath(』』)
一定要注意給頁面元素載入預留時間
執行js指令碼
## **思考**
python
多執行緒改寫 - 鏈家二手房案例
多執行緒改寫 - 汽車之家案例
python爬蟲系列(六)
由於時間安排本週只更新一篇 前面我們已經可以讀取 的源 了現在為了方便管理我們往往需要將其儲存。當然這裡就不得不說到資料庫這個東東比如mysql,當然鑑於目前只是基礎教程,我們不講太複雜的東西。這裡我們可以使用urllib.request.urlretrieve python open 方法用於開啟...
python爬蟲六 反爬蟲技術種類
zhuanlan.zhihu.com referer ehco 知乎 很多 都會建立 user agent白名單,只有屬於正常範圍的user agent才能夠正常訪問。模擬header的user agent欄位,返回乙個隨機的user agent字典型別的鍵值對 agents mozilla 5.0...
Python爬蟲學習
最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...