mahout 分類演算法

2021-07-28 09:48:44 字數 468 閱讀 6194

資料探勘有很多的領域,分類是其中之一,分類就是把一些新的資料項對映到給定類別的中的某乙個類別,比如當我們發表一篇文章的時候,就可以自動的把這篇文章劃分到某乙個文章類別,一般的過程是根據樣本的資料利用一定的分類演算法,得到分類規則,新的資料過來就依據該規則進行類別的劃分。

分類在資料探勘中是一項非常重要的任務,有很多的用途。比如**,即從歷史的樣本資料中推算出未來資料的趨向。專案期間,通過使用小兒中醫肺炎的資料將肺炎的型別進行分類,然後通過輸入新的資料記錄來判斷患者究竟屬於哪一種肺炎型別,以便對症下藥。

相對於聚類,分類和聚類的區別就是是否有預先的學習階段,聚類是沒有的,一開始就聚類,而分類是有學習過程的,用分類可以解決的問題,用聚類肯定可以解決。但是就平均的準確度來說,分類演算法的準確度可能會高點,原因是分類使用了資料原有的特性,根據資料已有的特性形成規則,然後使用規則對資料進行分析。在mahout中有很多的分類演算法,專案期間主要是用到了bayesian和randomforest演算法。

mahout探索之旅 CART分類回歸演算法

cart 演算法原理與理解 cart演算法的全稱是分類回歸樹演算法,分類即劃分離散變數 回歸劃分連續變數。他與c4.5很相似,但是乙個二元分類,採用的是類似於熵的gini指數作為分類決策,形成決策樹之後還要進行剪枝,我自己在實現整個演算法的時候採用的是代價複雜度演算法。gini 指數主要是度量資料劃...

mahout中bayes分類分析 2

2 模型 以上訓練部分的四個job 執行完畢後,整個 bayes 模型就建立完畢了,總共生成並儲存三個目錄檔案 trainer tfidf trainer weights trainer thetanormalizer 我們可以將模型從分布式上sequence 檔案導成本地的 txt 檔案進行檢視。...

mahout使用KMeans演算法

mahout提供了記憶體中和分布式的兩種kmeans聚類實現。下面是記憶體中kmeans的 示例,示例 使用了最簡單的一維向量作為輸入 tests kmeans cluster algorithm in memory,note the test uses only 1 d vector i.e.a ...