這裡不講知識點,直接把爬蟲套路寫出來,可以直接上手
#第一步引入要使用的庫函式
import requests #這個庫引入用於請求,很常用
from lxml import etree #xpath解析要引用的庫
'''假如引入庫後報錯,開啟終端 pip install ***(缺少的庫函式)
pip install lsxl -i --trusted-host pypi.douban.com
'''#第二步寫上到要爬取**的的url和用於偽裝的headers
url=
''#(裡面是你要爬取的**)
headers=
#在你要爬取的**那按f12,點network 然後選乙個鏈結-->headers**可以找到user-agent和referer如下圖
#第三步傳送get請求並用etree對響應進行處理
response=request.get(url,headers=headers)
e=etree.html(response.text)
#對獲取的response的text處理
#第四步用xpath的谷歌外掛程式可以開始無腦爬資料了
data=e.xpath('')
print
(data)
#可以列印出爬出到的資料
圖一
圖二
你只需要開啟xpath外掛程式後,滑鼠對準你想爬的資料後按shift會自動幫你解析出query,你只需複製貼上下後放到e.path("")中即可(注意這裡用""而不是』』)但它自動解析出來的太仔細太長了,我們一般把第乙個/與最後乙個/div
中間去掉,如
/html[@class='loaded']/body[@id='-1']/div[@class='wrap']/div[@class='rank-box box-center cf']/div[@class='main-content-wrap fl']/div[@class='rank-body']/div[@id='rank-view-list']/div[@class='book-img-text']/ul/li[1]/div[@class='book-mid-info']/h4/a
#這是xpath自動解析得到的作者名的解析
我們只取//div[@class='book-mid-info']/h4/a這一部分,如果要得到的是文字值還要再加上/text()
即//div[@class='book-mid-info']/h4/a/text()
#一
import requests
from lxml import etree
#二url=
''headers=
#三response=requests.get(url,headers)
e=etree.html(response.text)
#四names=e.xpath(
"//div[@class='book-mid-info']/h4/a/text()"
)#這裡在最後麵加了/text()表示解析出文字。
authors=e.xpath(
"//div[@class='book-mid-info']/p[@class='author']/a[@class='name']/text()"
)for name,author in
zip(names,authors)
:print
('**名:'
JSON快速入手
慢慢看不要急 假如這是返回的json串 1 建立乙個jsonobject物件 實體類 public class bean s 格式的生成 我這裡是通過實體類去操作的 如果不需要可以通過jsonobject中的put方法去實現 bean bean new bean 1 建立乙個實體類物件 listca...
簡單快速入手hdfs
為什麼會存在這篇文章,是因為我產生了以下問題,為了理清關係並解決疑惑。什麼是hdfs?需要搭建什麼樣的環境?hdfs只是乙個名詞,還是需要人為的去搭建環境?很多文章都在說hdfs的原理,我就想知道需不需要我去搭建?來自hadoop官網的截圖 簡單點,hadoop處理大資料,那麼必然面對資料的儲存問題...
Docker快速入手實戰筆記
快速上手使用docker,師兄給了乙個任務是打包乙個安裝好libfuzzer的docker映象,然後我沒有用過docker,師兄說很快,看一下就會用了,經過摸索確實如此。這裡用ubuntu系統下的docker安裝為例,其他系統大同小異。換雲服務商 curl ssl sh 安裝所需要的包 sudo a...