爬蟲總結備份

爬蟲要根據當前url位址對應的響應為準，當前url位址的elements的內容和url的響應不一樣

頁面上的資料在**

js生成的

requsets中解決編譯碼的方法

requests.text 和requests.content的區別

使用**ip

檢測ip的可用性

requests小技巧

urllib

urllib.requests.urlretrieve(img,『路徑』)

lxml庫

利用etree.html,將字串轉化為element物件

element物件具有xpath的方法

xpath 學習重點

@符號

// xpath 的包含

beautifulsoup

rematch

匹配單個字元

匹配多個字元

group

groups

subsearch

split

findall

re.s和re.dotall

json學習（本質就是乙個字串）

json支援資料格式

csv的讀取和寫入

實現爬蟲的套路

準備url-list

傳送請求，獲取響應

後續爬蟲**的建議

關注**的所有型別的頁面

多偽裝

利用多執行緒分布式

selenium使用的注意點

selenium獲取的頁面資料是瀏覽器中elements的內容。

pass

如果頁面中含有iframe。frame，需要先呼叫driver.switch_to.frame的方法或者switch_to_frame切換到frame中才能定位元素。

selenium常用操作

driver = webdriver.chrom(executable_path=『chromedriver路徑』)

獲取頁面原碼 driver.page_source

關閉當前頁面：driver.close()

退出瀏覽器：driver.quit()

定位元素(element查詢第乙個，elements查詢所有)

常見的表單操作

checkbok標籤

select 標籤

行為鏈(滑鼠的一些操作)

cookie操作

隱式等待和顯示等待

開啟多視窗

切換視窗

設定**ip

「」「python

options = webdriver.chromeoptions()

options.add_argument(」–proxy-server=")

driver = webdriver.chrome(executable_path=『路徑』，chrome_options=options)

「」"

爬蟲備份人人網狀態

話說周圍還在用人人網的人真是越來越少了，有一天閒來無事開啟人人，發現最新的狀態還是2013年12月的，好多好友也已經不怎麼聯絡了，真是物是人非啊。翻了翻自己的狀態，都是大學本科時發的，感覺挺有紀念意義的，就想著有空寫個爬蟲把自己的狀態抓下來做個備份，萬一哪天人人掛了，還能給自己的大學生活留個念想由...

簡單爬蟲總結

url url主要有三部分組成 1 協議，常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址有時候包含埠號，各種傳輸協議都有預設的埠號 3 主機資源的具體位址，如目錄和檔名等注意第一...

爬蟲總結（一）

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求，因為沒有給data傳值，如果需要使用get方式傳參，可以把引數經過urll...

爬蟲總結備份

爬蟲 備份人人網狀態

簡單爬蟲總結

爬蟲總結（一）

相關推薦

爬蟲備份人人網狀態