注:基於網上收集到的資訊,未經**試驗過。
名稱分類優點缺點git 評價
apache nutch
搜尋引擎
分布式(依賴hadoop),為搜尋引擎設計
重量級,用於精抽取會低效,nutch外掛程式除錯困難
老大級spiderman
爬蟲微核心+外掛程式式架構,重配置(無需寫**),多執行緒
使用者太少
star 525 | fork 326
webmagic
爬蟲使用了httpclient,支援多執行緒抓取,分布式抓取
js動態載入要使用如phantomjs、selenium,使用者太少
薦,star 406 | fork 225
webcollector 2
爬蟲可用於分頁及ajax的遍歷策略,整合selenium從而支援js,支援多**隨機切換
使用者太少
薦,star 29 | fork 32
crawljax
爬蟲支援ajax
樹回溯效能問題
star 222 | fork 123
owasp ajax crawling tool
爬蟲支援ajax(用到selenium)?-
jsoup
html解析器
html解析器
-老大級
httpcomponents(即原httpclient)
網路工具包
實現了所有 http 的方法(get,post,put,head 等),支援**
-老大級
htmlunit
網路工具包
支援js,junit 的擴充套件測試框架,將返回文件模擬成 html
-老大級
selenium2(webclient)
網路工具包
輔助動態爬蟲(整合htmlunit、phantomjs)--
phantomjs
伺服器端js
輔助動態爬蟲,js webkit,無需瀏覽器web測試,頁面訪問自動化
-star 14210 | fork 2695
五種開源API閘道器實現元件對比
api 閘道器一些實現 使用乙個元件時,尤其是這種比較流行的架構,元件肯定存在開源的,我們不必自己去從零開始去實現乙個閘道器,自己開發乙個閘道器的工作量是相當可觀的,現在比較流行的開源 api 閘道器如下所示 kong kong是乙個在 nginx 中執行的lua應用程式,並且可以通過lua ngi...
API管理工具對比,制定您的API管理平台
有一定工作年限的人一定會接觸過通過word文件或者wiki的方式來進行介面對接交流的介質。後來為了方便協作修改介面,又逐漸的開始有人通過markdown文件,提交到版本管理系統的方式來編寫介面。後來隨著瀏覽器的發展,出現了有利於介面除錯的外掛程式,最常見的就是postman,可以很方便的向介面發起p...
Java幾款效能分析工具的對比
為了做出正確的選擇,我列出效能分析應滿足一些最低要求 必須包括對應用程式的類 方法及時間的監測 必須包括對記憶體的監測 必須具有易用性 我配置了乙個使用restful介面的spring應用程式,使用mongodb作為資料儲存,還使用solr搜尋,並在tomcat伺服器上部署。參考工具 1.visua...