自娛自樂 爬蟲java實踐

2021-07-03 11:48:42 字數 1431 閱讀 3454

編碼沒幾年,以後估計也不會幹碼農的活了,但個人對程式設計實用性還是蠻感興趣的,最近在網上蒐羅資料時,發現一**資源很豐富,萌生了想把每個游泳的鏈結資源蒐羅起來的想法,索性現在畢業沒啥事,我就動手琢磨了一兩小時搞了個小爬蟲把這些超連結資源扒下來了,當然我的功能還是蠻簡單了,在這也不想寫出專業性的東西了,就把自己寫的原始原始碼貼出來跟大夥分享分享吧。

爬蟲程式就是自動搜尋獲取內容的程式,我的需求就是弄個蒐羅網頁內容的小爬蟲出來,也叫網路爬蟲,把有用的超連結資訊彙總起來。

網路爬蟲原理簡單點(我理解的)就是由給定的url抓取對應網頁中的內容,這個給定的url可以是人為賦值的,也可以由爬蟲本身自動解析網頁內容獲取的url,你所需要抓取的網頁內容則是通過正規表示式來判斷, 而如何抓取就是網頁資料流的實現過程了。所以乙個小爬蟲涉及的技術很基礎,我就分類貼出鄙人的原始**。

一、通過url獲取網頁內容

public stringbuffer getcontext(string urlpath)

catch (malformedurlexception e) catch (ioexception e)

return buffer;

}

二、解析網頁內容

/**

* 解析網頁內容,返回所需的資訊,可以是string型,此處是因實際需要返回map

* @param htmldoc 網頁內容

*/public linkedhashmapurldetector(string htmldoc)

return map;

}

/**

* 以下部分是本需求的特殊處理,貼出來方便以後自我翻看

*///解析首頁的內容,並分別訪問這些超連結的網頁,存入相應的檔案

hashmapurlmap = t.urldetector(stbuf.tostring());

stringbuffer buf1 = new stringbuffer();

for(string keyname : urlmap.keyset() )

}

/**

* 接上面,特殊處理

* @param upath

* @param fpath

*/public string collectbtorother(string upath, string fpath)

return rtbuf.tostring();

}

三、將需要的部分存入本地

public void writetofile(string filepath, stringbuffer buffer)

catch (ioexception e)

}

自娛自樂 中國現狀

萬里長城萬里長,烈日炎炎心哇涼。年年 奔小康。工資好比眉毛短,物價猶如頭髮長。遙望樓盤空幻想,一年能買幾平方?財政氣粗是大爺,銀行有奶就是娘。管土地的是霸王,工商稅務兩條狼。電老虎,公檢法,是流氓。白衣天使黑心腸,交通警 蝗。當官的 掌權的沒天良。電信局,如暗娼,亂收話費更猖狂。教育部,是明搶,人民...

arp欺騙(純屬自娛自樂)

使用方法 fping 選項 目標.a顯示是活著的目標 a 顯示目標位址 b n 大量 ping 資料要傳送,以位元組為單位 預設 56 b f 將指數退避演算法因子設定為 f c n 的計數的 ping 命令傳送到每個目標 預設為 1 c n c,相同報告結果在冗長的格式 d 列印前每個輸出行的時間...

685 coder的自娛自樂

好看的皮囊千篇一律,有趣的靈魂只有我乙個。啄木鳥 噠噠噠噠噠噠噠噠。樹 我沒病,你別啄了。啄木鳥 沒病走兩步。樹 滾。謝謝,我們很忙 男孩騎著高頭大馬來到了懸崖邊,回頭對著心愛的女孩說 我最後問你一句,你到底嫁不嫁給我?如果你不嫁給我,我活著也沒什麼意思,我就從這個山崖跳下去。女孩被感動了,對著男孩...