首先,隨手記下看到的mahout原始碼目錄說明:
mahout專案是由多個子專案組成的,各子專案分別位於原始碼的不同目錄下,下面對mahout的組成進行介紹:
1、mahout-core:核心程式模組,位於/core目錄下;
2、mahout-math:在核心程式中使用的一些資料通用計算模組,位於/math目錄下;
3、mahout-utils:在核心程式中使用的一些通用的工具性模組,位於/utils目錄下;
上述三個部分是程式的主題,儲存所有mahout專案的原始碼。
另外,mahout提供了樣例程式,分別在taste-web和examples目錄下:
4、taste-web:利用mahout推薦演算法而建立的基於web的個性化推薦系統demo;
5、examples:對mahout中各種機器學習演算法的應用程式;
6、bin:bin目錄下只有乙個名為mahout的檔案,是乙個shell指令碼檔案,用於在hadoop平台的命令列下呼叫mahout中的程式;
在buildtools、eclipse和distribution目錄下,有mahout相關的配置檔案
7、buildtools目錄下是用於核心程式構建的配置檔案,以mahout-buildtools的模組名稱在mahout的pom.xml檔案中進行說明;
8、eclipse下的xml檔案是對利用eclipse開發mahout的配置說明;
9、distribution目錄下有兩個配置檔案:bin.xml和src.xml,進行mahou安裝時的一些配置資訊。
(在開發的時候一般很少對這個目錄下的檔案進行修改,所以不用太關注,知道大體什麼意思就ok)
下面開始這次blog的內容:
mahout最大的優點就是基於hadoop實現,把很多以前執行於單機上的演算法,轉化為了mapreduce模式,這樣大大提公升了演算法可處理的資料量和處理效能。
hadoop得以在大資料處理應用中廣泛應用得益於其自身在資料提取、變形和載入(etl)方面上的天然優勢。hadoop的分布式架構,將大資料處理引擎盡可能的靠近儲存,對例如像etl這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向儲存。hadoop的mapreduce功能實現了將單個任務打碎,並將碎片任務傳送(map)到多個節點上,之後再以單個資料集的形式載入(reduce)到資料倉儲裡。
心裡煩躁,好多學到的東西不想寫了,先回去了,明天早點來研究。
推薦系統7 推薦演算法實戰 mahout推薦演算法框架
1.1概述 1.2發展歷史 mahout一直伴隨hadoop發展的,從一開始能夠幫助我們在hadoop上實現很多機器學習,到後來發現它的效率越來越慢,於是放棄使用了一段時間,在一年之後,大概14年開始宣布 0.9版本 截止14年底,mahout不再接受任何mapreduce開發的演算法,轉向spar...
對於樹分治演算法的初步理解
樹分治是基於樹上問題的一種處理問題的方式 它有非常巧妙地結構,它利用的是樹的 邊等效 和點的無序性 對樹進行離散,抽象維護等效路徑 和 子樹關係的神奇演算法 分治樹有非常好的性質,把一些樹寫成分治樹是這樣 可以注意到原樹的形態被離散,重新組合,但對於每乙個被離散後的子樹,改變的只是它的分治重心與父節...
對於Source Filmmaker的初步了解
sfm source filmmaker 是乙個valve公司開發的基於起源引擎的動畫軟體。學習前對sfm的一些想法 我用過不少三維動畫軟體,3dmax,maya,c4d,blender等等,最近我最常用的軟體就是blender,而cascaduer也是在我計畫之中想要學習的軟體。雖然這些軟體包括b...