Weka和mahout的區別

2022-08-02 05:57:14 字數 598 閱讀 5303

mahout:

1.可大規模分布式計算

2.目標物件是程式開發人員

3.與hadoop和lucene有很好的介面

4.是圍繞著可擴充套件的演算法和介面特殊設計的

5.命令列和api

6.apache  license

weka:

1.記憶體消耗厲害

2.目標物件是資料探勘分析人員

3.有大量的演算法集

4.gui

5.gpl

功能層面,weka 包含大量經過良好優化的機器學習和資料分析演算法,可以處理與格式化、資料轉換相關的各種任務,唯一的不足就是它對記憶體敏感的大資料處理的不好。而mahout 則為大資料而生,作為乙個新生的資料探勘工具,它所支援的演算法與weka 相比依然很少,相關文件的質量也良莠不齊,但是它的優勢在於不僅支援單機環境,還支援mapreduce 分布式計算,能夠應對weka 無法處理的大資料。

效能方面,algorithmia 通過使用兩個工具都支援的演算法(隨機森林)對同乙個資料集進行分類做了對比。結果顯示,weka 的最優準確率為99.39%(250 棵樹),而mahout 為95.89%(100 棵樹),同時該實驗也顯示樹的數量對mahout 的分類準確率影響很小

Weka和Mulan的介紹和理解

weka weka的分類器,都放在以weka.classifiers為開頭的包裡。並根據其功能進行分門別類,具體見其方法。weka裡的核心類,放在了weka.core為開頭的包裡。對於weka的資料,存在了instances裡。然後每一條資料,則是介面instrance的例項 有s和沒有s的區分,很...

Mahout和Hadoop 機器學習的基本原理

計算技術通常用來分析資料,而理解資料則依賴於機器學習。多年來,對於大多數開發者來說,機器學習卻是非常遙遠 一直是難以企及的。這可能是現在收益最高,也是最受歡迎的一項技術之一。毫無疑問 作為開發人員,機器學習是乙個能夠大展身手的舞台。圖1 機器學習的構成 機器學習是簡單資料檢索與儲存的合理擴充套件。通...

mahout的特性(三)

mahout的特性 雖然在開源領域中相對較為年輕,但 mahout 已經提供了大量功能,特別是在集群和cf方面。mahout 的主要特性包括 taste cf。taste 是 sean owen 在 sourceforge 上發起的乙個針對 cf 的開源專案,並在 2008 年被贈予 mahout。...