NCrawler 開源爬蟲框架學習

開源爬蟲的框架很多，不過對於使用者來說最最簡單的應該是 ncrawler了。

該框架是基於c# 語言的。依據其demo **，即使未學習過c# ，也可以在10分鐘內生成屬於自己的爬蟲**。

只需要將下面的uri替換為你需要的uri即可。

using (crawler c = new crawler(new uri(""),

new htmldocumentprocessor(), // process html

//new itextsharppdfprocessor.itextsharppdfprocessor(), // add pdf text extraction

// new googlelanguagedetection(), // add language detection

//new ***fileprocessor(), // add language detection

new dumperstep())

)

AsyncHttpClient 開源框架學習研究

overview asynchttpclient庫基於apache的httpclient框架,是乙個非同步的httpclient,所有的http請求都在子執行緒中,但是callback執行的執行緒和建立這個callback的執行緒是同乙個也即主線程建立的callback那麼執行的時候也是在主線程...

NCrawler爬蟲在應用中一些問題

1 html 處理使用的是htmlagilitypack，其中htmlentity.deentitize函式處理文字中的轉義字元後，字元對映為unicode 160，影響某些文字的分詞處理。目前沒有好解決方案，我的方法是在呼叫函式前把這個串過濾掉，畢竟這個串是在文字中出現最多的。2 關於深度搜尋時候...

iphone 開源框架

掃瞄wifi資訊條形碼掃瞄 tcp ip的通訊協議 voip sip three20 google gdata 720全景顯示panoramagl jabber client plblocks image processing json編碼解碼 base64編碼解碼 xml解析安全儲存使用者密碼...

NCrawler 開源爬蟲框架學習

AsyncHttpClient 開源框架學習研究

NCrawler爬蟲在應用中一些問題

iphone 開源框架

相關推薦