有關機器學習的開源專案apache mahout三月份的時候推 出了它的0.3版本,這個新版本在之前的基礎上新增了一些新功能,比之前的版本更為穩定,效能也有相應的提公升。infoq採訪了apache mahout專案的開發者grant ingersoll和ted dunning,其中grant ingresoll也是該項目的創始人之一。
過去十年裡,從大 量原始資料中解析出相關資訊的需求急劇增長,以致於聚類(clustering)、協同過濾(collaborative filtering)和分類(categorization)等機器學習技術的需 求也是呈穩定增長勢態。
grant ingersoll這樣介 紹
mahout 專案:
mahout另乙個重點是,它提供一系列工 具把文字資料表示成矩陣形式。這也是採用mahout機器學習演算法來處理資料的首要任務。
mahout專案是由apache lucene(開 源搜尋專案)社群幾 個熱衷於聚類、分類等機器學習演算法的技術人員所發起。社群最初的開發「追隨」於ng et al.發表的**「支 持多核
之 上的機器學習
的map- reduce框架(map-reduce for machine learning on multicore)」,自專案啟動以來,社群也致力於各 種機器學習演算法、模式的開發。
最新apache mahout版本的亮點有:
在問到這個版本中最激動人心的特性 時,ingersoll這樣回答:
新新增的分布式奇異值分解(singular value decomposition)計算非常令人期待,此外,還有那些方便使用者把內容匯入到mahout的諸多任務具。其中,最激動人心的其實並不是有形的,而是 mahout社群的成長。社群目前已吸引到數量客觀的貢獻者和使用者。任何開源專案的發展過程當中,最初階段往往都很慘淡,工作常常只有一兩個人去做,一旦 當中有人離開甚至只是減緩開發速度,整個專案都有可能中途夭折。但我相信mahout已經通過了這樣的考驗,現在已經有非常多非常活躍的社群成員正努力把 它變成乙個真正令人激動的專案。mahout專案的未來計畫包括:
檢視英文原文:mahout 0.3: open source machine learning
Mahout 機器學習
wget tar xzvf mahout distribution 0.8.tar.gz cd mahout distribution 0.8 sudo vi etc profile 增加 export path path home ysc mahout distribution 0.8 bin s...
機器學習開源專案mahout 用其開發推薦引擎
機器學習開源專案mahout 用其開發推薦引擎 開放源 專案mahout,實現了很多機器學習的演算法和一些實用的系統,對於從事機器學習和web挖掘的人員來說是個很值得學習的資源。mahout是 基於hadoop的,可以分布式執行,至此lucence nutch mahout為構建開源的分布式的搜尋引...
Mahout和Hadoop 機器學習的基本原理
計算技術通常用來分析資料,而理解資料則依賴於機器學習。多年來,對於大多數開發者來說,機器學習卻是非常遙遠 一直是難以企及的。這可能是現在收益最高,也是最受歡迎的一項技術之一。毫無疑問 作為開發人員,機器學習是乙個能夠大展身手的舞台。圖1 機器學習的構成 機器學習是簡單資料檢索與儲存的合理擴充套件。通...