世界盃剛過,想從世界盃貼吧爬取一些,用requests庫,發現當設定user-agent時,li標籤用xpath提取不到,div標籤只能提取到部分,並且發現當不設定user-agent時就能正常提取到
嘗試著修改為ie瀏覽器的user-agnet:
mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; trident/5.0;
也能正常提取元素
分析爬取的網頁內容,發現使用谷歌瀏覽器的ua時,html標籤被放在了注釋裡面,而使用ie的ua時,html標籤正常
原因找到了,xpath把html注釋當作乙個結點,所以提取不到其中的li和div
解決辦法:使用ie的ua
使用xpath提取頁面所有a標籤的href屬性值
coding utf 8 1.選取節點 獲取所有的div元素 div 代表獲取根節點的直接子元素 獲取所有帶有id屬性的div div id 2.謂詞 索引從1開始 獲取body下面的第乙個 最後乙個div元素 前兩個 body div 1 body div last body div positi...
MVC 母版頁和部分頁面
大體框架 新建一空頁面 編輯模版頁 天涯海閣 br 2015 7 11 td tr table div body html 控制器 using system using system.collections.generic using system.linq using system.web usi...
wordpress 部分頁面開啟顯示連線重置
排查後發現是post name的字段太長導致的,我使用了固定鏈結 post id.html 沒有用post name作為固定連線。想改wp posts 中post name的字段,發現提示post date值 invalid default value for date 找到配置檔案my.cnf 在...