WEKA ARFF檔案的格式

2021-08-20 04:21:30 字數 1459 閱讀 4826

1.    weka(waikato environment for knowledgeanalysis):懷卡托智慧型分析環境。

作為乙個大眾化的資料探勘工作平台,weka整合了大量能承擔資料探勘任務的機器學習演算法,包括對資料進行預處理、分類、回歸、聚類、關聯分析以及在新的互動式介面上的視覺化等等。通過其介面,可在其基礎上實現自己的資料探勘演算法。

(源**位址

2.    weka的資料檔案格式

3.    arff檔案結構:可以分為兩個部分:頭資訊和資料資訊。

頭資訊(head information):包括了對關係的宣告和對屬性的宣告;

@relation

@attribute

資料資訊(data information):即資料集中給出的資料,「@data」標記獨佔一行,剩下的是各個例項的資料,每個例項佔一行。例項的各屬性值用逗號「,」隔開,缺失值(missing value)用問號「?」表示,且這個問號不能省略。例如:

@data

sunny,85,85,false,no

?,78,90,?,yes

檔案示例:weather.arff(在weka安裝目錄的「data」子目錄下)

4.    weka支援的四種資料格式

@attributetimestamp date "yyyy-mm-dd hh:mm:ss"

@data

"2001-04-0312:12:12"

"2001-05-0312:59:55"

tips

①   以「%」開始的行是注釋。

②   識別arff檔案的重要依據是分行,因此不能在這種檔案裡隨意的斷行。空行(或全是空格的行)將被忽略。

③   屬性宣告語句的順序很重要:首先它表明了該項屬性在資料部分的位置;其次,最後乙個宣告的屬性被稱作class屬性,在分類或回歸任務中,它是預設的目標變數。

④   如果和的命名中包含空格,它必須加上引號(指英文標點的單引號或雙引號)。

⑤   資料格式,字串屬性和標稱屬性的值是區分大小寫的,而「relation」、「attribute 」和「data」則不區分。若值中含有空格,必須被引號括起來。

1 2 weka arff資料檔案的解釋

supervised learning 監督學習 用weka做分類 資料 weather.numeric.arff temperature和huidity是數字,而不是描述性文字。解釋 會自動統計好最大值 最小值 平均值和標準差。weka中的資料格式 relation weather attribu...

檔案打包的格式

file header file id dword 4 byte magic number dword 4 byte versiong number dword 64 byte key file id file header info this struct is encrypted dword 4...

bat格式的檔案

定義 批處理檔案,也稱為批處理指令碼,英文譯為batch。在ms dos中,bat檔案是可執行檔案,由一系列命令構成,其中可以包含對其他程式的呼叫。它的構成沒有固定格式,在dos平台上執行,每一行可視為乙個命令,每個命令裡可以含多條子命令,從第一行開始執行,直到最後一行結束 大部分時候就好像我們在d...