總結:
1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.
2.反爬蟲 的主要措施:
1. 發起請求
import requsets
#請求的**
url=''
#請求data=requests.get(url)
#響應的主體內容
print(data.text)
2. 響應內容#響應的狀態資訊
print(data.status_code)
#響應的頭部信心
print(data.headers)
1.自己編寫
2.使用fake_useragent
from fake_useragent import useragent
ua = useragent(
)#ie瀏覽器
user agent
print
(ua.ie)
#opera瀏覽器
print
(ua.opera)
#chrome瀏覽器
print
(ua.chrome)
#firefox瀏覽器
print
(ua.firefox)
#safri瀏覽器
print
(ua.safari)
#最常用的方式
#寫爬蟲最實用的是可以隨意變換headers,一定要有隨機性。支援隨機生成請求頭
print
(ua.random)
print
(ua.random)
print
(ua.random)
1.beautifulsoup解析
2.find檢查
import pandas as pd
import requsets
pro=
url='www.google.com'
re=requests.get(url,proxies=pro)
1.在瀏覽器登陸之後,開啟》開發者工具,>>>network,複製
a=
''#複製的cookies
headers=
url=
''#登陸之後的**
data=requests.get(url,headers=headers)
1.安裝python的庫seleniumurl=
''#**必須是要全否則會報錯誤
from selenium import webdriver
driver=webdriver.chrome(「chromedriver的位置」)
drvier.get(url)
html=driver.page_source
2.當自己的**沒加htttp時,會報錯誤webdriverexception: message:
unknown error:
unhandled inspector error:
(session info: chrome=
71.0
.3578
.98)
(driver info: chromedriver=
2.45
.615291
(ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387)
, platform=windows nt 10.0
.17134 x86_64)
總結:
1.爬蟲最主要的功能是抓取網頁.我們希望可以等到html,然後去解析得到其中自己想要的資訊.
2.反爬蟲 的主要措施:
學習連線
python初學者,列表
2.列表 3.通用操作 4.修改列表 5.列表的方法 6.遍歷 語法列表名 元素1,元素2,元素3,元素n list 建立乙個列表 print list type list 執行結果為list 1,2,3,4,5 print list 0 結果是 1 print list 4 結果是 5 print...
python初學者學習筆記(1)
一 前期的準備 注 同一臺電腦可以安裝多個版本的python,需要切換使用可在配置環境變數中修將要使用的版本置頂。二 python執行過程 原始檔 py檔案 載入後經過編譯 位元組碼檔案 pyc檔案 二進位制 直譯器解釋 輸出 編譯方式 方法一 python shell輸入 import py co...
初學者學習 python實現字元動畫
usr bin env python coding utf 8 有關幀的一些引數 寬 80個單位 高 30個單位 幀率 30 sec import image import os import time 如同之前公開課講授的,將檔案路徑指向的檔案轉換成字元畫 儲存在 pic str 中返回 閾值為1...