一、資料去重
日常工作中,使用hive或者impala查詢匯出來可能會存在資料重複的現象,但又不想重新執行一遍查詢(查詢時間稍長,匯出檔案內容多)程式設計客棧,因此想到了使用linux命令將檔案的內容重複資料進行去除。
案例如下:
可以看到aaa.txx有3條重複資料
想去掉多餘的資料,只保留一條
sort aaa.txt 程式設計客棧| u程式設計客棧niq > bbb.txt
將aaa.txt檔案中重複資料去掉,輸出到bbb.txt
可以看到bbb.txt檔案中只保留了一條資料
二、資料交、並、差
1)、交集(相當於user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq -d
2)nzqihf、並集(相當於 user_2019.user_no union user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq
3)、差集
user_2019.txt-user_2020.txt
sort user_2019.txt user_2020.txt user_2020.txt | uniq -u
user_2020.txt - user_2019.txt:
sort user_2020.tx程式設計客棧t user_2019.txt user_2019.txt | uniq -u
本文標題: linux實現檔案內容去重及求交並差集
本文位址:
Linux檔案內容去重
1 兩個檔案的交集,並集 1.取出兩個檔案的並集 重複的行只保留乙份 cat file1 file2 sort uniq file3 2.取出兩個檔案的交集 只留下同時存在於兩個檔案中的檔案 cat file1 file2 sort uniq d file3 3.刪除交集,留下其他的行 cat fi...
linux 檔案內容去重
1 sort filename uniq filename2 2 awk count 0 filename filename2 原始檔 codingants ubuntu awk cat dup hello world awkcoding ants hello world awkhello worl...
檔案內容去重及排序
本文將使用 php 和 linux sort 命令兩種方法,分別實現檔案內容去重及排序,並提供完成演示 寫入1000000個數字,每行乙個數字 file user id.txt num 1000000 tmp for i 0 i num i 檢視檔案行數 wc l user id.txt 10000...