/*模擬爬蟲*/
var html='
go to tmooc
不能為空
go to tedu
panel
';var reg=/]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;
var arr=null;//接住本次找到的a元素
var urls=;//儲存本次找到的a
//先呼叫reg的exec查詢html中的a,將結果儲存在arr中,再和null比較
while((arr=reg.exec(html))!=null)
console.log(urls.join("\n"));
['"]:雙引號或單引號
. :單獨乙個點是除換行符以外的所有字元
.* :大白話說就是無限制的字元
?就是截止的意思
<\/a>/ig; :因為有2個/,所以在/前面加\就ok了。
正規表示式:/內容/
\s :空格
爬蟲 模擬請求
我們將要爬取人民網某些新聞中的資料,那我們該如何實現呢?首先我們先實現第一步 根據url,模擬url請求,根據url獲取網頁中的內容。設定全域性的標準cookie策略 requestconfig config requestconfig.custom setcookiespec cookiespec...
爬蟲 模擬登入
在一些爬蟲中,需要用到賬號登入進入,才能看到需要爬取的內容,因此實現程式自動模擬登入非常有必要。目前大部分 的登入,都是使用表單提交的方法實現的,這一類 的模擬登入,相信度娘已經給出來的許多例項。還有一類 不是使用網頁自帶表單提交的方法,自己實現了js方法來登入,這就需要進行特別的模擬瀏覽器行為。本...
爬蟲 模擬登入
模擬登入流程 對點選登入按鈕對應的請求進行傳送 post請求 處理請求引數 使用者名稱 密碼 驗證碼 其他的防偽引數 模擬登入cookie操作 1.手動cookie處理 通過抓包工具獲取cookie值,將該值封裝到headers中 2.自動處理cookie 模擬登入post請求後,cookie由伺服...