爬蟲總結備份

2021-09-14 03:01:07 字數 1454 閱讀 9255

爬蟲要根據當前url位址對應的響應為準,當前url位址的elements的內容和url的響應不一樣

頁面上的資料在**

js生成的

requsets中解決編譯碼的方法

requests.text 和requests.content的區別

使用**ip

檢測ip的可用性

requests小技巧

urllib

urllib.requests.urlretrieve(img,『路徑』)

lxml庫

利用etree.html,將字串轉化為element物件

element物件具有xpath的方法

xpath 學習重點

@符號

// xpath 的包含

beautifulsoup

rematch

匹配單個字元

匹配多個字元

group

groups

subsearch

split

findall

re.s和re.dotall

json學習(本質就是乙個字串)

json支援資料格式

csv的讀取和寫入

實現爬蟲的套路

準備url-list

傳送請求,獲取響應

後續爬蟲**的建議

關注**的所有型別的頁面

多偽裝

利用多執行緒分布式

selenium使用的注意點

selenium獲取的頁面資料是瀏覽器中elements的內容。

pass

如果頁面中含有iframe。frame,需要先呼叫driver.switch_to.frame的方法或者switch_to_frame切換到frame中才能定位元素。

selenium常用操作

driver = webdriver.chrom(executable_path=『chromedriver路徑』)

獲取頁面原碼 driver.page_source

關閉當前頁面:driver.close()

退出瀏覽器:driver.quit()

定位元素(element查詢第乙個,elements查詢所有)

常見的表單操作

checkbok標籤

select 標籤

行為鏈(滑鼠的一些操作)

cookie操作

隱式等待和顯示等待

開啟多視窗

切換視窗

設定**ip

「」「python

options = webdriver.chromeoptions()

options.add_argument(」–proxy-server=")

driver = webdriver.chrome(executable_path=『路徑』,chrome_options=options)

「」"

爬蟲 備份人人網狀態

話說周圍還在用人人網的人真是越來越少了,有一天閒來無事開啟人人,發現最新的狀態還是2013年12月的,好多好友也已經不怎麼聯絡了,真是物是人非啊。翻了翻自己的狀態,都是大學本科時發的,感覺挺有紀念意義的,就想著有空寫個爬蟲把自己的狀態抓下來做個備份,萬一哪天人人掛了,還能給自己的大學生活留個念想 由...

簡單爬蟲總結

url url主要有三部分組成 1 協議,常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結 等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址 有時候包含埠號,各種傳輸協議都有預設的埠號 3 主機資源的具體位址,如目錄和檔名等 注意 第一...

爬蟲總結(一)

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求,因為沒有給data傳值,如果需要使用get方式傳參,可以把引數經過urll...