爬蟲要根據當前url位址對應的響應為準,當前url位址的elements的內容和url的響應不一樣
頁面上的資料在**
js生成的
requsets中解決編譯碼的方法
requests.text 和requests.content的區別
使用**ip
檢測ip的可用性
requests小技巧
urllib
urllib.requests.urlretrieve(img,『路徑』)
lxml庫
利用etree.html,將字串轉化為element物件
element物件具有xpath的方法
xpath 學習重點
@符號
// xpath 的包含
beautifulsoup
rematch
匹配單個字元
匹配多個字元
group
groups
subsearch
split
findall
re.s和re.dotall
json學習(本質就是乙個字串)
json支援資料格式
csv的讀取和寫入
實現爬蟲的套路
準備url-list
傳送請求,獲取響應
後續爬蟲**的建議
關注**的所有型別的頁面
多偽裝
利用多執行緒分布式
selenium使用的注意點
selenium獲取的頁面資料是瀏覽器中elements的內容。
pass
如果頁面中含有iframe。frame,需要先呼叫driver.switch_to.frame的方法或者switch_to_frame切換到frame中才能定位元素。
selenium常用操作
driver = webdriver.chrom(executable_path=『chromedriver路徑』)
獲取頁面原碼 driver.page_source
關閉當前頁面:driver.close()
退出瀏覽器:driver.quit()
定位元素(element查詢第乙個,elements查詢所有)
常見的表單操作
checkbok標籤
select 標籤
行為鏈(滑鼠的一些操作)
cookie操作
隱式等待和顯示等待
開啟多視窗
切換視窗
設定**ip
「」「python
options = webdriver.chromeoptions()
options.add_argument(」–proxy-server=")
driver = webdriver.chrome(executable_path=『路徑』,chrome_options=options)
「」"
爬蟲 備份人人網狀態
話說周圍還在用人人網的人真是越來越少了,有一天閒來無事開啟人人,發現最新的狀態還是2013年12月的,好多好友也已經不怎麼聯絡了,真是物是人非啊。翻了翻自己的狀態,都是大學本科時發的,感覺挺有紀念意義的,就想著有空寫個爬蟲把自己的狀態抓下來做個備份,萬一哪天人人掛了,還能給自己的大學生活留個念想 由...
簡單爬蟲總結
url url主要有三部分組成 1 協議,常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結 等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址 有時候包含埠號,各種傳輸協議都有預設的埠號 3 主機資源的具體位址,如目錄和檔名等 注意 第一...
爬蟲總結(一)
requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求,因為沒有給data傳值,如果需要使用get方式傳參,可以把引數經過urll...