最近在做阿里巴巴的抓取,對於這種大型的**,簡單的按照教程的標籤前後擷取,很難以應用這種複雜的樣式,因為對於阿里和**這種**,內容頁的樣式是使用者自己定義的,所以說前後擷取已經不再試用。
在網上參考了很多這方面的,真可謂可以利用的資訊甚少。在火車頭論壇上逛了一下,看見大家對於這種**的抓取,都先用抓包軟體分析**的請求,抓取內容頁真正的資料請求部分。
(httpanalyzer/httpwatch等等,本人比較喜歡前者)
比如 抓取 這個** ,在ie瀏覽器上貼上上這個**,利用httpanalyzer分析獲取的結構
(no 該網頁載入獲取請求的步驟, type 為獲取請求的型別)內容頁的型別應該就是text/html按照這個步驟,查詢伺服器返回的資料是否是內容頁的資料,最終查詢到真正的位址為
分析次鏈結的構成
為請求內容頁的基本鏈結
offerid=1130036970 為請求產品的id
memberid=xiaohui055 為請求產品的人的id
callback=jquery17208579062023162851_1363054197710 不知何處作用,所以實驗一下
1。不帶memerid 和 callback請求頁面 offerid=1130036970 找不到內容
2. 帶有memeberid 請求頁面offerid=1130036970&memberid=xiaohui055 找不到內容
等等經過實驗分析 memeberid 不是請求內容頁面所必須的內容,callback應該為乙個隨機的值,必須要帶callback=任意值
實驗 &callback=cc即為內容頁的請求內容。
剩下的便用火車頭進行採集即可
**:
火車頭抓取阿里巴巴內容頁
最近在做阿里巴巴的抓取,對於這種大型的 簡單的按照教程的標籤前後擷取,很難以應用這種複雜的樣式,因為對於阿里和 這種 內容頁的樣式是使用者自己定義的,所以說前後擷取已經不再試用。在網上參考了很多這方面的,真可謂可以利用的資訊甚少。在火車頭論壇上逛了一下,看見大家對於這種 的抓取,都先用抓包軟體分析 ...
XJOI 迷你火車頭
題目描述 一列火車有乙個火車頭拖著一長串的車廂,每個車廂有若干個乘客。一旦火車頭出了故障,所有的車廂就只能停在鐵軌上了,因此鐵路局給每列火車配備了三個迷你火車頭,每個迷你火車頭可以拖動一定數量的車廂,以便火車頭發生故障後能夠拖走部分車廂。鐵路部門對迷你火車頭作了如下規定 1 迷你火車頭能夠拖動的最大...
最大化引數 火車頭 鐵路大亨各火車頭的效能引數
英文名 中文名發明時間 退役時間 費用保養 燃料加速性 能可靠性 trevithick 1 特里維西亞 1e 10k6k 8kstephenson rocket 史蒂芬森 火箭ae w16k 6k8k 2 4 0 john bull 2 4 0 約翰牛aew 23k7k 9k0 4 0 dewitt...