初學者學習python爬蟲的總結 一

2021-09-30 19:41:05 字數 1932 閱讀 6993

總結:

1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.

2.反爬蟲 的主要措施:

1. 發起請求

import requsets

#請求的**

url=''

#請求data=requests.get(url)

#響應的主體內容

print(data.text)

2. 響應內容
#響應的狀態資訊

print(data.status_code)

#響應的頭部信心

print(data.headers)

1.自己編寫

2.使用fake_useragent

from fake_useragent import useragent

ua = useragent(

)#ie瀏覽器

user agent

print

(ua.ie)

#opera瀏覽器

print

(ua.opera)

#chrome瀏覽器

print

(ua.chrome)

#firefox瀏覽器

print

(ua.firefox)

#safri瀏覽器

print

(ua.safari)

#最常用的方式

#寫爬蟲最實用的是可以隨意變換headers,一定要有隨機性。支援隨機生成請求頭

print

(ua.random)

print

(ua.random)

print

(ua.random)

1.beautifulsoup解析

2.find檢查

import pandas as pd
import requsets

pro=

url='www.google.com'

re=requests.get(url,proxies=pro)

1.在瀏覽器登陸之後,開啟》開發者工具,>>>network,複製

a=

''#複製的cookies

headers=

url=

''#登陸之後的**

data=requests.get(url,headers=headers)

1.安裝python的庫selenium
url=

''#**必須是要全否則會報錯誤

from selenium import webdriver

driver=webdriver.chrome(「chromedriver的位置」)

drvier.get(url)

html=driver.page_source

2.當自己的**沒加htttp時,會報錯誤
webdriverexception: message: 

unknown error:

unhandled inspector error:

(session info: chrome=

71.0

.3578

.98)

(driver info: chromedriver=

2.45

.615291

(ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387)

, platform=windows nt 10.0

.17134 x86_64)

總結:

1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.

2.反爬蟲 的主要措施:

學習連線

python初學者,列表

2.列表 3.通用操作 4.修改列表 5.列表的方法 6.遍歷 語法列表名 元素1,元素2,元素3,元素n list 建立乙個列表 print list type list 執行結果為list 1,2,3,4,5 print list 0 結果是 1 print list 4 結果是 5 print...

python初學者學習筆記(1)

一 前期的準備 注 同一臺電腦可以安裝多個版本的python,需要切換使用可在配置環境變數中修將要使用的版本置頂。二 python執行過程 原始檔 py檔案 載入後經過編譯 位元組碼檔案 pyc檔案 二進位制 直譯器解釋 輸出 編譯方式 方法一 python shell輸入 import py co...

初學者學習 python實現字元動畫

usr bin env python coding utf 8 有關幀的一些引數 寬 80個單位 高 30個單位 幀率 30 sec import image import os import time 如同之前公開課講授的,將檔案路徑指向的檔案轉換成字元畫 儲存在 pic str 中返回 閾值為1...