開源爬蟲的框架很多,不過對於使用者來說最最簡單的應該是 ncrawler了。
該框架是基於c# 語言的。 依據其demo **,即使未學習過c# ,也可以在10分鐘內生成屬於自己的爬蟲**。
只需要將下面的uri替換為你需要的uri即可。
using (crawler c = new crawler(new uri(""),
new htmldocumentprocessor(), // process html
//new itextsharppdfprocessor.itextsharppdfprocessor(), // add pdf text extraction
// new googlelanguagedetection(), // add language detection
//new ***fileprocessor(), // add language detection
new dumperstep())
)
AsyncHttpClient 開源框架學習研究
overview asynchttpclient庫 基於apache的httpclient框架,是乙個非同步的httpclient,所有的http請求都在子執行緒中,但是callback執行的執行緒和建立這個callback的執行緒是同乙個 也即主線程建立的callback那麼執行的時候也是在主線程...
NCrawler爬蟲在應用中一些問題
1 html 處理使用的是htmlagilitypack,其中htmlentity.deentitize函式處理文字中的轉義字元後,字元對映為unicode 160,影響某些文字的分詞處理。目前沒有好解決方案,我的方法是在呼叫函式前把這個串過濾掉,畢竟這個串是在文字中出現最多的。2 關於深度搜尋時候...
iphone 開源框架
掃瞄wifi資訊 條形碼掃瞄 tcp ip的通訊協議 voip sip three20 google gdata 720全景顯示panoramagl jabber client plblocks image processing json編碼解碼 base64編碼解碼 xml解析 安全儲存使用者密碼...