Java 爬蟲工具 開源API對比

2021-07-03 04:44:06 字數 1122 閱讀 5220

注:基於網上收集到的資訊,未經**試驗過。

名稱分類優點缺點git 評價

apache nutch

搜尋引擎

分布式(依賴hadoop),為搜尋引擎設計

重量級,用於精抽取會低效,nutch外掛程式除錯困難

老大級spiderman

爬蟲微核心+外掛程式式架構,重配置(無需寫**),多執行緒

使用者太少

star 525 | fork 326

webmagic

爬蟲使用了httpclient,支援多執行緒抓取,分布式抓取

js動態載入要使用如phantomjs、selenium,使用者太少

薦,star 406 | fork 225

webcollector 2

爬蟲可用於分頁及ajax的遍歷策略,整合selenium從而支援js,支援多**隨機切換

使用者太少

薦,star 29 | fork 32

crawljax

爬蟲支援ajax

樹回溯效能問題

star 222 | fork 123

owasp ajax crawling tool

爬蟲支援ajax(用到selenium)?-

jsoup

html解析器

html解析器

-老大級

httpcomponents(即原httpclient)

網路工具包

實現了所有 http 的方法(get,post,put,head 等),支援**

-老大級

htmlunit

網路工具包

支援js,junit 的擴充套件測試框架,將返回文件模擬成 html

-老大級

selenium2(webclient)

網路工具包

輔助動態爬蟲(整合htmlunit、phantomjs)--

phantomjs

伺服器端js

輔助動態爬蟲,js webkit,無需瀏覽器web測試,頁面訪問自動化

-star 14210 | fork 2695

五種開源API閘道器實現元件對比

api 閘道器一些實現 使用乙個元件時,尤其是這種比較流行的架構,元件肯定存在開源的,我們不必自己去從零開始去實現乙個閘道器,自己開發乙個閘道器的工作量是相當可觀的,現在比較流行的開源 api 閘道器如下所示 kong kong是乙個在 nginx 中執行的lua應用程式,並且可以通過lua ngi...

API管理工具對比,制定您的API管理平台

有一定工作年限的人一定會接觸過通過word文件或者wiki的方式來進行介面對接交流的介質。後來為了方便協作修改介面,又逐漸的開始有人通過markdown文件,提交到版本管理系統的方式來編寫介面。後來隨著瀏覽器的發展,出現了有利於介面除錯的外掛程式,最常見的就是postman,可以很方便的向介面發起p...

Java幾款效能分析工具的對比

為了做出正確的選擇,我列出效能分析應滿足一些最低要求 必須包括對應用程式的類 方法及時間的監測 必須包括對記憶體的監測 必須具有易用性 我配置了乙個使用restful介面的spring應用程式,使用mongodb作為資料儲存,還使用solr搜尋,並在tomcat伺服器上部署。參考工具 1.visua...