xpath只能提取到部分頁面元素的問題

世界盃剛過，想從世界盃貼吧爬取一些，用requests庫，發現當設定user-agent時，li標籤用xpath提取不到，div標籤只能提取到部分，並且發現當不設定user-agent時就能正常提取到

嘗試著修改為ie瀏覽器的user-agnet：

mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; trident/5.0;

也能正常提取元素

分析爬取的網頁內容，發現使用谷歌瀏覽器的ua時，html標籤被放在了注釋裡面，而使用ie的ua時，html標籤正常

原因找到了，xpath把html注釋當作乙個結點，所以提取不到其中的li和div

解決辦法：使用ie的ua

使用xpath提取頁面所有a標籤的href屬性值

coding utf 8 1.選取節點獲取所有的div元素 div 代表獲取根節點的直接子元素獲取所有帶有id屬性的div div id 2.謂詞索引從1開始獲取body下面的第乙個最後乙個div元素前兩個 body div 1 body div last body div positi...

MVC 母版頁和部分頁面

大體框架新建一空頁面編輯模版頁天涯海閣 br 2015 7 11 td tr table div body html 控制器 using system using system.collections.generic using system.linq using system.web usi...

wordpress 部分頁面開啟顯示連線重置

排查後發現是post name的字段太長導致的，我使用了固定鏈結 post id.html 沒有用post name作為固定連線。想改wp posts 中post name的字段，發現提示post date值 invalid default value for date 找到配置檔案my.cnf 在...

xpath只能提取到部分頁面元素的問題

使用xpath提取頁面所有a標籤的href屬性值

MVC 母版頁和部分頁面

wordpress 部分頁面開啟顯示連線重置

相關推薦