資料探勘學習03 統計工具R學習和使用小結

2022-04-09 04:29:58 字數 1140 閱讀 4498

本文目的

最近在使用r做一些文字聚類方面的計算,感覺r還是很好用的,特別是r有很多計算擴充套件,可以方便的運用這些擴充套件和資料進行試驗。所以,在此記錄一些使用心得,作為備忘。

r是什麼

r是乙個開源軟體,起初主要用於數學統計計算。通過r指令碼與r環境互動,指令碼中內建了許多統計相關的函式,使用十分方便。但是,最近幾年r被廣泛使用到了資料探勘領域,據 rexer analytics 5th annual data miner survey - 2011調查顯示,有47%的資料探勘從業人員使用r作為主要工具。

r有乙個活躍的社群cran(the comprehensive r archive network),此社群提供了大概2000個r擴充套件,文件和不同平台(linux, mac和windwos)的版本。即使沒有找到符合要求的擴充套件,也可以根據r的標準,編寫自己的擴充套件。r提供api介面,可以在程式中使用r相關的模組。

總而言之,r非常靈活。

安裝r(windows)

安裝r擴充套件(windows)

r有許多擴充套件,安裝也很方便,r的安裝目錄下面有個library,此目錄就是存放r擴充套件的目錄,隨r安裝時,缺省會安裝一些擴充套件。

r自助小結

r有許多函式,忘記函式使用方法和引數很正常,關鍵是要知道如何找到相關資料。可以在r命令列中輸入「hlep(function_name)」的方式,檢視任何函式的詳細說明。當然,更多幫助,可以通過r主選單的幫助下獲得,如下圖

這裡面的資料r language definiton詳細的描述了r的基本語法。當然使用google或bing等e文搜素引擎尋找r相關資料也會事半功倍。

參考資料

《R語言資料探勘》 1 9 機器學習

1.9 機器學習 應用於機器學習演算法的資料集稱為訓練集,它由一組成對的資料 x,y 構成,稱為訓練樣本。成對的資料解釋如下 x 這是乙個值向量,通常稱為特徵向量。每個值或者特徵,要麼是分類變數 這些值來自一組離散值,比如 要麼是數值型。y 這是乙個標籤,表示x的分類或者回歸值。機器學習過程的目的就...

《R語言資料探勘》 1 8 統計學

1.8 統計學 統計學研究資料收集 資料分析 資料解釋或說明,以及資料表示。作為資料探勘的基礎,它們的關係將在下面章節中說明。1.8.1 統計學與資料探勘 第一次使用資料探勘這個術語的人是統計學家。最初,資料探勘是乙個貶義詞,指的是企圖提取得不到資料支援的資訊。在一定程度上,資料探勘構建統計模型,這...

機器學習 資料探勘學習資料蒐集

1.機器學習筆記by beader chen 2.機器學習基石筆記by 杜少 3.台灣大學機器學習基石by flowersummer 5.mooc學院課程 機器學習基石 machine learning foundations 機器學習技法 machine learning techniques 關...