鮑魚資料集
屬性資訊:
給出了屬性名稱,屬性型別,度量單位和簡要說明。環數是要**的值:可以是連續值,也可以是分類問題。
名稱/資料型別/度量單位/描述
-----------------------------
性別/名義/-/ m,f和i(嬰兒)
長度/連續/公釐/最長的外殼尺寸
直徑/連續/公釐/垂直於長度
高度/連續/公釐/帶有外殼的肉總
重/連續/克/整個鮑魚
去皮重量/連續/克/重量肉
內臟重量/連續/克/腸重量(出血後)
蛋殼重量/連續/克/乾後
環/整數/-/ +1.5給出年齡(以年為單位)
處理難點主要是性別分為三部分,male,female,infant。
首先讀取資料,並把數值和字元分開。(也就是第一列單獨分出來,處理後再合併回去)
datatable = importdata('dataset.data'); %載入baitxt資料
data = datatable.data; %讀取非元胞的資料,data,是du其中一zhi個包
textdata = datatable.textdata;
我們把m,f,i分別定義為-1,1,0.
s1 = 'm';
tfm = strcmpi(s1,textdata);
tfm = -tfm;
s1 = 'f';
tff = strcmpi(s1,textdata);
tf = tfm+tff;
這樣就得到一列資料。
合併後輸出即可。
data = [tf,data];
filename='data.dat';
for b=1:9
dlmwrite(filename,data,'delimiter','\t','newline','pc');
end
matlab整理資料集
今天用matlab整理了一天的資料集,心好累。原始資料是這樣的,152.0,115.0,167.0,135.0 221.0,127.0,240.0,152.0 我需要把每個數字字元分出來。關鍵 如下 tline fgets fidin 從檔案讀行 s regexp tline,match 正規表示式...
Matlab 資料處理
資料統計與分析 多項式處理 微積分離散傅利葉變換 線性方程組求解 非線性方程與最優化問題 常微分方程的數值求解 稀疏矩陣 最大值最小值 max x min x 返回矩陣的最大元素和最小元素 y,u max a 返回倆個行向量,y記錄a的每列的最大元素,u記錄每列最大元素的行號 y,u max a,d...
spark RDD處理資料集
package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...