自娛自樂爬蟲java實踐

編碼沒幾年，以後估計也不會幹碼農的活了，但個人對程式設計實用性還是蠻感興趣的，最近在網上蒐羅資料時，發現一**資源很豐富，萌生了想把每個游泳的鏈結資源蒐羅起來的想法，索性現在畢業沒啥事，我就動手琢磨了一兩小時搞了個小爬蟲把這些超連結資源扒下來了，當然我的功能還是蠻簡單了，在這也不想寫出專業性的東西了，就把自己寫的原始原始碼貼出來跟大夥分享分享吧。

爬蟲程式就是自動搜尋獲取內容的程式，我的需求就是弄個蒐羅網頁內容的小爬蟲出來，也叫網路爬蟲，把有用的超連結資訊彙總起來。

網路爬蟲原理簡單點（我理解的）就是由給定的url抓取對應網頁中的內容，這個給定的url可以是人為賦值的，也可以由爬蟲本身自動解析網頁內容獲取的url，你所需要抓取的網頁內容則是通過正規表示式來判斷，而如何抓取就是網頁資料流的實現過程了。所以乙個小爬蟲涉及的技術很基礎，我就分類貼出鄙人的原始**。

一、通過url獲取網頁內容

public stringbuffer getcontext(string urlpath)
catch (malformedurlexception e)  catch (ioexception e) 
return buffer;
}

二、解析網頁內容

/**
* 解析網頁內容，返回所需的資訊，可以是string型，此處是因實際需要返回map
* @param htmldoc 網頁內容
*/public linkedhashmapurldetector(string htmldoc)
return map;
}

/**
* 以下部分是本需求的特殊處理，貼出來方便以後自我翻看 
*///解析首頁的內容,並分別訪問這些超連結的網頁，存入相應的檔案
hashmapurlmap = t.urldetector(stbuf.tostring());
stringbuffer buf1 = new stringbuffer();
for(string keyname : urlmap.keyset() )
}

/**
* 接上面，特殊處理
* @param upath
* @param fpath
*/public string collectbtorother(string upath, string fpath)
return rtbuf.tostring();
}

三、將需要的部分存入本地

public void writetofile(string filepath, stringbuffer buffer)
catch (ioexception e) 
}

自娛自樂爬蟲java實踐

自娛自樂中國現狀

arp欺騙（純屬自娛自樂）

685 coder的自娛自樂

自娛自樂 爬蟲java實踐

自娛自樂 中國現狀

arp欺騙（純屬自娛自樂）

685 coder的自娛自樂

相關推薦

自娛自樂爬蟲java實踐

自娛自樂中國現狀