在臨床上,偶爾會出現需要分析病例資料的情況。通常為了保護隱私,患者的個人識別相關的關鍵資訊會被剔除只保留病歷號,但是患者的就診行為可能不止一次,這也就導致了我們的資料出現了重複,把這些資料直接放到一起進行分析顯然是不科學的。
首先觀察自己的資料,如果是用行來代表觀測的話,可以使用dplyr包distinct
函式。如下所示:
#載入dplyr包
library(dylpr)
df <- data.frame(name=c("wang","lee","mary","harry","mary"),
+ score=c(58,59,59,80,60)
+ )
print(df)
name score
1 wang 58
2 lee 59
3 mary 59
4 harry 80
5 mary 60
df <- df %>% distinct(name, .keep_all = t)
print(df)
name score
1 wang 58
2 lee 59
3 mary 59
4 harry 80
去除name重複了的這一行,但是我們可以看到的是雖然name那一列出現了重複,但是其實它的score是不同的,其實代表了不同的觀測,distinct
函式依然不會讓你失望。如下所示
df <- data.frame(name=c("wang","lee","mary","harry","mary"),
+ score=c(58,59,59,80,60)
+ )
print(df)
name score
1 wang 58
2 lee 59
3 mary 59
4 harry 80
5 mary 60
df <- df %>% distinct(name,score, .keep_all = t)
print(df)
name score
1 wang 58
2 lee 59
3 mary 59
4 harry 80
5 mary 60
表明distinct()
函式能夠實現根據多個變數進行剔除重複的過程。
未完待續!
shell awk按域去除重複行
首先解釋一下什麼叫 按域去除重複行 有的時候我們需要去除的重複行並不是整行都重複,兩行的其中一列的元素相同我們有的時候就需要認定這兩行重複,因此有了今天的內容。去除重複行shell有乙個原生命令但是不太好使應為這個命令找的重複行是上下文的重複行,也就是說需要提前排序,這樣就增加了不必要的麻煩,我們在...
pandas 去除重複行
方法 dataframe.drop duplicates subset none,keep first inplace false 1引數 這個drop duplicate方法是對dataframe格式的資料,去除特定列下面的重複行。返回dataframe格式的資料。subset column la...
sql 去除重複行
最近做乙個資料庫的資料匯入功能,發現聯合主鍵約束導致不能匯入,原因是源表中有重複資料,但是源表中又沒有主鍵,很是麻煩。經過努力終於解決了,現在就來和大家分享一下,有更好的辦法的可以相互交流。有重複資料主要有一下幾種情況 1.存在兩條完全相同的紀錄 這是最簡單的一種情況,用關鍵字distinct就可以...