用蜘蛛抓卓越亞馬遜碰到的問題

2021-06-26 05:08:36 字數 657 閱讀 2839

這個可不叫什麼「少了」東西。

web伺服器(不管是中間層次系統的還是人家業務處理用的程式)針對不同的瀏覽器客戶端,本來就就可能自動產生不完全一樣的html的。同時中間**伺服器也會修改html。同時瀏覽器也會修改html。

但是一般來說,得到的html在語法結構上、那些對業務有意義的部分,是相同的。

例如這類,比如說人家人家輸出的時候contentencoding是gb2312的,但是你在瀏覽器上設定了「要使用utf8編碼」,那麼我估計類似chrome這種瀏覽器就會自動轉換html內容並且自動在html中插入這個。也就是說這是瀏覽器給你改了html。

但是各個環節都可能修改html。web應用程式也完全可能根據客戶端的不同,或者cookie不同,或者當時業務處理是資料不同,或者也許恰好更新了web應用程式,而輸出不同的html。不要摳html的字眼,你只要注意需要採集的語法元素是否存在就可以了。

例如你需要採集 這樣乙個東西,所寫出的採集程式如果糾結於「到底是yyy屬性在前還是zzz屬性在前」這就很扯淡了。如果你發現有人給你寫的採集程式「範例」連這個先後次序調轉都應付不了,那我就勸你扔掉這種程式。因為此程式顯然不是針對html語法來設計採集流程的,而是死摳低階的單詞的匹配,必定非常非常地龐大、繁瑣、邏輯混亂、無厘頭般地複雜10倍。

如果你學習寫採集程式時,有個正確的指導,就不會糾結於低階的問題了。

jq外掛程式之仿「卓越亞馬遜」首頁彈出選單效果

彈出式選單 沒劍 2008 07 03 引數說明 showobj 要顯示的選單id timeout 延時時間,滑鼠停留 離開後延時多久開始顯示 隱藏選單 speed 選單顯示速度,數字越大,顯示越慢,預設為100 呼叫示例 button dmenu content jquery.fn.dmenu f...

用Python抓漫畫

今天看漫畫的時候 一般是周四更新 突然想何不把漫畫抓下來看呢。於是,我看了一下網頁原始碼,發現它每張會附帶乙個隨機數,猜都沒得猜,比如,火影第524話的第1頁 001 3760.png。沒辦法,繼續看原始碼。居然發現有個js檔案包含了這一話所有的 接下來的問題是乙個古老的問題,用什麼語言呢?我決定嚐...

Android用python抓systrace方法

1.先說使用方法,參考的這篇文章 這其中的抓systrace方法 進入android sdk platform tools systrace目錄下 python systrace.py b 8000 t 5 o systrace.html 3.本以為這樣就可以了,結果執行python systrac...