1. weka(waikato environment for knowledgeanalysis):懷卡托智慧型分析環境。
作為乙個大眾化的資料探勘工作平台,weka整合了大量能承擔資料探勘任務的機器學習演算法,包括對資料進行預處理、分類、回歸、聚類、關聯分析以及在新的互動式介面上的視覺化等等。通過其介面,可在其基礎上實現自己的資料探勘演算法。
(源**位址:)
2. weka的資料檔案格式:
3. arff檔案結構:可以分為兩個部分:頭資訊和資料資訊。
①頭資訊(head information):包括了對關係的宣告和對屬性的宣告;
@relation
@attribute
②資料資訊(data information):即資料集中給出的資料,「@data」標記獨佔一行,剩下的是各個例項的資料,每個例項佔一行。例項的各屬性值用逗號「,」隔開,缺失值(missing value)用問號「?」表示,且這個問號不能省略。例如:
@data
sunny,85,85,false,no
?,78,90,?,yes
檔案示例:weather.arff(在weka安裝目錄的「data」子目錄下)
4. weka支援的四種資料格式:
@attributetimestamp date "yyyy-mm-dd hh:mm:ss"
@data
"2001-04-0312:12:12"
"2001-05-0312:59:55"
tips:
① 以「%」開始的行是注釋。
② 識別arff檔案的重要依據是分行,因此不能在這種檔案裡隨意的斷行。空行(或全是空格的行)將被忽略。
③ 屬性宣告語句的順序很重要:首先它表明了該項屬性在資料部分的位置;其次,最後乙個宣告的屬性被稱作class屬性,在分類或回歸任務中,它是預設的目標變數。
④ 如果和的命名中包含空格,它必須加上引號(指英文標點的單引號或雙引號)。
⑤ 資料格式,字串屬性和標稱屬性的值是區分大小寫的,而「relation」、「attribute 」和「data」則不區分。若值中含有空格,必須被引號括起來。
1 2 weka arff資料檔案的解釋
supervised learning 監督學習 用weka做分類 資料 weather.numeric.arff temperature和huidity是數字,而不是描述性文字。解釋 會自動統計好最大值 最小值 平均值和標準差。weka中的資料格式 relation weather attribu...
檔案打包的格式
file header file id dword 4 byte magic number dword 4 byte versiong number dword 64 byte key file id file header info this struct is encrypted dword 4...
bat格式的檔案
定義 批處理檔案,也稱為批處理指令碼,英文譯為batch。在ms dos中,bat檔案是可執行檔案,由一系列命令構成,其中可以包含對其他程式的呼叫。它的構成沒有固定格式,在dos平台上執行,每一行可視為乙個命令,每個命令裡可以含多條子命令,從第一行開始執行,直到最後一行結束 大部分時候就好像我們在d...