初學者學習python爬蟲的總結一

總結:

1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.

2.反爬蟲的主要措施:

1. 發起請求

import requsets
#請求的**
url=''
#請求data=requests.get(url)
#響應的主體內容
print(data.text)

2. 響應內容

#響應的狀態資訊
print(data.status_code)
#響應的頭部信心
print(data.headers)

1.自己編寫

2.使用fake_useragent

from fake_useragent import useragent
ua = useragent(
)#ie瀏覽器
user agent
print
(ua.ie)
#opera瀏覽器
print
(ua.opera)
#chrome瀏覽器
print
(ua.chrome)
#firefox瀏覽器
print
(ua.firefox)
#safri瀏覽器
print
(ua.safari)
#最常用的方式
#寫爬蟲最實用的是可以隨意變換headers，一定要有隨機性。支援隨機生成請求頭
print
(ua.random)
print
(ua.random)
print
(ua.random)

1.beautifulsoup解析

2.find檢查

import pandas as pd

import requsets
pro=
url='www.google.com'
re=requests.get(url,proxies=pro)

1.在瀏覽器登陸之後，開啟》開發者工具，>>>network，複製

a=
''#複製的cookies
headers=
url=
''#登陸之後的**
data=requests.get(url,headers=headers)

1.安裝python的庫selenium

url=
''#**必須是要全否則會報錯誤
from selenium import webdriver
driver=webdriver.chrome(「chromedriver的位置」) 
drvier.get(url)
html=driver.page_source

2.當自己的**沒加htttp時，會報錯誤

webdriverexception: message: 
unknown error: 
unhandled inspector error:
(session info: chrome=
71.0
.3578
.98)
(driver info: chromedriver=
2.45
.615291
(ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387)
,  platform=windows nt 10.0
.17134 x86_64)

總結:

1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.

2.反爬蟲的主要措施:

學習連線

python初學者，列表

2.列表 3.通用操作 4.修改列表 5.列表的方法 6.遍歷語法列表名元素1,元素2,元素3,元素n list 建立乙個列表 print list type list 執行結果為list 1,2,3,4,5 print list 0 結果是 1 print list 4 結果是 5 print...

python初學者學習筆記（1）

一前期的準備注同一臺電腦可以安裝多個版本的python，需要切換使用可在配置環境變數中修將要使用的版本置頂。二 python執行過程原始檔 py檔案載入後經過編譯位元組碼檔案 pyc檔案二進位制直譯器解釋輸出編譯方式方法一 python shell輸入 import py co...

初學者學習 python實現字元動畫

usr bin env python coding utf 8 有關幀的一些引數寬 80個單位高 30個單位幀率 30 sec import image import os import time 如同之前公開課講授的，將檔案路徑指向的檔案轉換成字元畫儲存在 pic str 中返回閾值為1...

初學者學習python爬蟲的總結 一

python初學者，列表

python初學者學習筆記（1）

初學者學習 python實現字元動畫

相關推薦

初學者學習python爬蟲的總結一