UCI資料集使用

2021-07-11 16:59:26 字數 1771 閱讀 9443

uci資料可以使用matlab的dlmread或textread讀取,不過,需要先將不是數字的類別用數字,比如1/2/3等替換,否則讀入不了數值,當字元了。

每個資料檔案(.data)包含以「屬性-值」對形式描述的很多個體樣本的記錄。對應的.info檔案包含的大量的文件資料。(有些檔案generate databases;他們不包含*.data檔案。)作為資料集和領域知識的補充,在utilities目錄裡包含了一些在使用這一資料集時的有用資料。

下面以uci中iris為例介紹一下資料集:

[1]

ucidata\iris中有三個檔案:

index

iris.data

iris.names

index為資料夾目錄,列出了本資料夾裡的所有檔案,如iris中index的內容如下:

index of iris

18 mar 1996 105 index

08 mar 1993 4551 iris.data

30 may 1989 2604 iris.names

iris.data為iris資料檔案,內容如下:

5.1,3.5,1.4,0.2,iris-setosa

4.9,3.0,1.4,0.2,iris-setosa

4.7,3.2,1.3,0.2,iris-setosa

…… 7.0,3.2,4.7,1.4,iris-versicolor

6.9,3.1,4.9,1.5,iris-versicolor

…… 6.3,3.3,6.0,2.5,iris-virginica

6.4,3.2,4.5,1.5,iris-versicolor

5.8,2.7,5.1,1.9,iris-virginica

7.1,3.0,5.9,2.1,iris-virginica

…… 如上,屬性直接以逗號隔開,中間沒有空格(5.1,3.5,1.4,0.2,),最後一列為本行屬性對應的值,即決策屬性iris-setosa

iris.names介紹了irir資料的一些相關資訊,如資料標題、資料**、以前使用情況、最近資訊、例項數目、例項的屬性等,如下所示部分:

…… 7. attribute information:

1. sepal length in cm

2. sepal width in cm

3. petal length in cm

4. petal width in cm

5. class:

– iris setosa

– iris versicolour

– iris virginica

…… 讀取uci資料集iris.data中資料:

[attrib1, attrib2, attrib3, attrib4, class] = textread(『data\iris.data』, 『%f%f%f%f%s』, 『delim。iter』, 『,』);

attrib = [attrib1』; attrib2』; attrib3』; attrib4』]』;

a = zeros(150, 1);

a(strcmp(class, 『iris-setosa』)) = 1;

a(strcmp(class, 『iris-versicolor』)) = 2;

a(strcmp(class, 『iris-virginica』)) = 3;

至此,屬性值均儲存到attrib中,類別值儲存到陣列a中。

UCI資料集iris資料簡單的視覺化

jupyter notebook 實現 import numpy as np import pandas as pd import matplotlib.pyplot as plt fname e pythonwork project deeplearning task data iris.data...

openwrt 使用uci命令設定WiFi引數

uci set wireless.ra0 wifi device uci set wireless.ra0.type ralink uci set wireless.ra0.mode 9 uci set wireless.ra0.channel auto uci set wireless.ra0.t...

UCI資料庫及演算法

我的主頁上也有整理好的一些uci資料集 很多的機器學習的經典演算法都在裡面。而且公布源程式,易於修改。如果作者沒有公布源程式,可以到作者主頁找找,也可以寫信給作者要,一般 開頭都會有作者的email位址。寫信的時候要注意要很有禮貌,否則作者,尤其是著名學者,很有可能不會理睬。如果演算法簡單,可以自己...