純屬初學...有很多需要改進的地方,請多多指點...
目標是抓取58同城 這個大分類下的列表資料:
簡單分析:
1. 按照以下二級分類來獲取每個列表的資料,
2. 主要分頁: 可以看出,其分頁是pn5 這裡設定的,那麼這個5就是頁碼了.
3. **號碼: 實在隱藏的div裡面,點選 聯絡商家即可看到.但是對於程式來說.只可以直接取得的.
**如下:
//抓取58資料
//儲存資料
var mongooseschema = new
mongoose.schema(,
//抓取位址
type: ,//
型別 content: ,//
抓取位址
updatetime: ,//
資料抓取時間
flag: //
用於判斷是否抓取過 0表示詳情沒有抓取過.
});//
model
var mongoosemodel = db.model('pagelist', mongooseschema);//
**記賬
//抓取資料
var proxy = [ //
** ,,,
,,,,
,,];var proxyindex = 5;
var flag = false;//
判斷是否為最後一頁
var pageno = 1;
function
crawl()
var option =
}; function (res) );
res.on("end", function
()
var item =
//儲存列表資料
mongoosemodel.create(item, function
(error)
else
else
pageno = pageno + 1;
settimeout(crawl, 5020);//
設定為5秒以上,就不會被跳轉驗證頁面, o(∩_∩)o哈哈~被我發現了. 其實最好是使用**.
} });
});}).on("error", function
(error) );
};//
開始抓取資料
crawl();
Python 資料型別(一) 列表
1 什麼是列表 由 建立 可放任意型別 無長度限制 tang 2 操作 1 長度 len 舉例 a 1,1,yes 1,1,yes 1,0,no 0,1,no 0,1,no a3 計數 count count 方法語法 str.count sub,start 0,end len string 引數解...
資料抓取一
資料抓取一 一 今日任務 將資料檔案 spider.log根據要求轉存為 ans0201.csv 二 主要內容 任務分析以及實現方式 根據要求,我們需要取出spider.log檔案中的相關字段,使用 python 中的讀取檔案,每行資料都有相同的規律,按行讀取,取出相應字段,然後建立 csv檔案,之...
MFC控制項(一)(列表框)
列表框控制項新增變數 clistbox m list1 clistbox m list2 按鈕變數 cbutton m in cbutton m out 文字框控制項變數 cstring m item 1 初始化時,將按鈕in out狀態設為不可用 m in.enablewindow false m...