編碼沒幾年,以後估計也不會幹碼農的活了,但個人對程式設計實用性還是蠻感興趣的,最近在網上蒐羅資料時,發現一**資源很豐富,萌生了想把每個游泳的鏈結資源蒐羅起來的想法,索性現在畢業沒啥事,我就動手琢磨了一兩小時搞了個小爬蟲把這些超連結資源扒下來了,當然我的功能還是蠻簡單了,在這也不想寫出專業性的東西了,就把自己寫的原始原始碼貼出來跟大夥分享分享吧。
爬蟲程式就是自動搜尋獲取內容的程式,我的需求就是弄個蒐羅網頁內容的小爬蟲出來,也叫網路爬蟲,把有用的超連結資訊彙總起來。
網路爬蟲原理簡單點(我理解的)就是由給定的url抓取對應網頁中的內容,這個給定的url可以是人為賦值的,也可以由爬蟲本身自動解析網頁內容獲取的url,你所需要抓取的網頁內容則是通過正規表示式來判斷, 而如何抓取就是網頁資料流的實現過程了。所以乙個小爬蟲涉及的技術很基礎,我就分類貼出鄙人的原始**。
一、通過url獲取網頁內容
public stringbuffer getcontext(string urlpath)
catch (malformedurlexception e) catch (ioexception e)
return buffer;
}
二、解析網頁內容
/**
* 解析網頁內容,返回所需的資訊,可以是string型,此處是因實際需要返回map
* @param htmldoc 網頁內容
*/public linkedhashmapurldetector(string htmldoc)
return map;
}
/**
* 以下部分是本需求的特殊處理,貼出來方便以後自我翻看
*///解析首頁的內容,並分別訪問這些超連結的網頁,存入相應的檔案
hashmapurlmap = t.urldetector(stbuf.tostring());
stringbuffer buf1 = new stringbuffer();
for(string keyname : urlmap.keyset() )
}
/**
* 接上面,特殊處理
* @param upath
* @param fpath
*/public string collectbtorother(string upath, string fpath)
return rtbuf.tostring();
}
三、將需要的部分存入本地
public void writetofile(string filepath, stringbuffer buffer)
catch (ioexception e)
}
自娛自樂 中國現狀
萬里長城萬里長,烈日炎炎心哇涼。年年 奔小康。工資好比眉毛短,物價猶如頭髮長。遙望樓盤空幻想,一年能買幾平方?財政氣粗是大爺,銀行有奶就是娘。管土地的是霸王,工商稅務兩條狼。電老虎,公檢法,是流氓。白衣天使黑心腸,交通警 蝗。當官的 掌權的沒天良。電信局,如暗娼,亂收話費更猖狂。教育部,是明搶,人民...
arp欺騙(純屬自娛自樂)
使用方法 fping 選項 目標.a顯示是活著的目標 a 顯示目標位址 b n 大量 ping 資料要傳送,以位元組為單位 預設 56 b f 將指數退避演算法因子設定為 f c n 的計數的 ping 命令傳送到每個目標 預設為 1 c n c,相同報告結果在冗長的格式 d 列印前每個輸出行的時間...
685 coder的自娛自樂
好看的皮囊千篇一律,有趣的靈魂只有我乙個。啄木鳥 噠噠噠噠噠噠噠噠。樹 我沒病,你別啄了。啄木鳥 沒病走兩步。樹 滾。謝謝,我們很忙 男孩騎著高頭大馬來到了懸崖邊,回頭對著心愛的女孩說 我最後問你一句,你到底嫁不嫁給我?如果你不嫁給我,我活著也沒什麼意思,我就從這個山崖跳下去。女孩被感動了,對著男孩...