如何利用Xpath抓取京東網商品資訊

html檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式乙個標籤，標籤之間存在上下關係，形成標籤樹；xpath 使用路徑表示式在 xml 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

京東網**商品

商品資訊在京東官網上的部分網頁原始碼如下圖所示：

**資訊在京東官網上的網頁原始碼

仔細觀察原始碼，可以發現我們所需的目標資訊是存在標籤下的，那麼接下來我們就像剝洋蔥一樣，一層一層的去獲取我們想要的資訊。

通常url編碼的方式是把需要編碼的字元轉化為%xx的形式，一般來說url的編碼是基於utf-8的，當然也有的於瀏覽器平台有關。在python的urllib庫中提供了quote方法，可以實現對url的字串進行編碼，從而可以進入到對應的網頁中去。

爬蟲**

items = selector.xpath('//li[@class="gl-item"]')

之後通過range函式，逐個從網頁中進行匹配目標資訊，而不是直接通過複製xpath表示式的方式一步到位。希望小夥伴們以後都可以少入這個坑~~

最後得到的效果圖如下所示：

最終效果圖

新鮮的**再一次出爐咯~

小夥伴們，有沒有發現利用xpath來獲取目標資訊比正規表示式要簡單一些呢？想學習更多python網路爬蟲與資料探勘知識，可前往專業**：