爬蟲學習筆記xpath pandas

2021-09-22 16:50:42 字數 673 閱讀 3305

使用requests庫時使用xpath:

pip3 install lxml	 #python3
使用:

from lxml import etree

res = requests.get('url') #得到網頁的響應

res_elements = etree.html(res.text) #獲得網頁源**源**

s = res_elements.xpath('//') #使用xpath

etree而其它功能:

html_recover = etree.tostring(html)  	#補全html
pandas爬取**的簡單使用:

安裝:

pip3 install pandas
爬取**:

import pandas 

s = pandas.read_html(url)[i] #i為網頁第幾個**

另一種寫法:

#先用xpath提取你所需的** t

s = pandas.read_html(t)[0]

爬蟲學習筆記

爬去網頁 解析資料 難點 爬蟲與反爬蟲的博弈 通用爬蟲 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 抓取過程 給定一些起始url,放入待爬取佇列 從佇列中獲取url物件,開始爬取資料 分析網頁,獲取網頁內所有的url,入隊,繼續重複第二步 主動給搜尋引擎提交url robots協議 ...

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

scrapy 爬蟲學習筆記

1.安裝scrapy pip install i 源 scrapy 2.手動建立scarpy專案 scrapy startproject 專案名稱 3.scrapy genspider jobbole blog.jobbole.com 使用自帶模板 4.除錯 修改setting檔案中obey rob...