html檔案其實就是由一組尖括號構成的標籤組織起來的,每一對尖括號形式乙個標籤,標籤之間存在上下關係,形成標籤樹;xpath 使用路徑表示式在 xml 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。
京東網**商品
商品資訊在京東官網上的部分網頁原始碼如下圖所示:
**資訊在京東官網上的網頁原始碼
仔細觀察原始碼,可以發現我們所需的目標資訊是存在標籤下的,那麼接下來我們就像剝洋蔥一樣,一層一層的去獲取我們想要的資訊。
通常url編碼的方式是把需要編碼的字元轉化為%xx的形式,一般來說url的編碼是基於utf-8的,當然也有的於瀏覽器平台有關。在python的urllib庫中提供了quote方法,可以實現對url的字串進行編碼,從而可以進入到對應的網頁中去。
爬蟲**
items = selector.xpath('//li[@class="gl-item"]')
之後通過range函式,逐個從網頁中進行匹配目標資訊,而不是直接通過複製xpath表示式的方式一步到位。希望小夥伴們以後都可以少入這個坑~~
最後得到的效果圖如下所示:
最終效果圖
新鮮的**再一次出爐咯~
小夥伴們,有沒有發現利用xpath來獲取目標資訊比正規表示式要簡單一些呢? 想學習更多python網路爬蟲與資料探勘知識,可前往專業**:
php phpquery簡易爬蟲抓取京東商品分類
phpquery教程可在這裡檢視 2 抓取程式 created on 2015 1 29 to change the template for this generated file go to window preferences phpeclipse php code templates hea...
php phpquery簡易爬蟲抓取京東商品分類
phpquery教程可在這裡檢視 2 抓取程式 created on 2015 1 29 to change the template for this generated file go to window preferences phpeclipse php code templates hea...
php phpquery簡易爬蟲抓取京東商品分類
phpquery教程可在這裡檢視 2 抓取程式 created on 2015 1 29 to change the template for this generated file go to window preferences phpeclipse php code templates hea...