SAS學習筆記(四) 關於資料整合的幾個細節

2021-06-20 17:45:42 字數 816 閱讀 9550

1)資料合併

縱向合併是指不同使用者的相同字段資訊進行合併,將表變長了啊~~用set temp1 temp2;

橫向合併是指相同使用者的不同字段進行擴充套件,將表變胖了啊~~用merge temp1 temp2;

2)資料彙總

比如對同乙個使用者,在乙個月內有好幾條交易額資訊,我們只想知道他乙個月的總和,那麼就要對資料進行彙總。

可以用first. last.這樣的指令,但在用著兩個指令之前要對資料集進行排序;

proc sort;

by id  **;(**是指要用到first.和last.指令的變數)

run;

/*彙總資料*/

if first.** then total_a=0;(每組要輸出的資料都會被初始化為0)

every_a +total_a;(累加每組資料中的每一項)

if last.** then output;

3)資料轉置

由於資料建模需要有唯一id,我們像步驟2中處理得到的資料,id仍然不是唯一的,那麼我們需要把使用者不同月份的交易資料放在同乙個id下。

proc transpose data=temp out=temp1

prefix=total_a;/*需要轉置後新變數的字首*/例如每月交易量名稱

by id;/*指定要分組的變數,也就是唯一變數*/ 例如交易索引號

var total_a;/*要轉置的變數*/  例如每月交易量

id  b;/*指定變數的值作為轉置後新變數的字尾*/ 例如月份

run;

4)刪除重複項

檢查id 是否唯一,且每個id下的變數是否都是唯一的。

SAS學習筆記 SAS資料步中常用SAS語句

1.資料獲取語句 例1 用input語句讀取資料流中的資料 data sastjfx2 1 input name weight height cards wang 42 160 zhang 46 170 run proc print run input語句記錄描述輸入資料記錄值的形式,給相應的變數賦...

SAS學習筆記(七) 關於異常值處理

sas中對於類別變數 離散 分布觀察用proc freq,對於連續變數則用proc univariate來完成。識別連續型變數的異常值通常稱為盒形圖,一般採用 proc univariate data train plot var variable run plot選項輸出變數的莖葉圖 觀測數少 或...

學習筆記(四) 整合學習

概念 整合學習 多分類器系統 基於委員會的學習 通過構建並結合多個學習器完成學習任務。圖1 先產生一組個體學習器,再利用某種策略將他們結合起來。分類1 根據個體學習器是否為同種型別 分類2 根據序列 並行 好而不同 個體學習器有一定的準確性並且學習器間具有差異 整合學習往往可以得到比單一學習器顯著優...