Linux實現檔案內容去重及求交並差集

一、資料去重

日常工作中，使用hive或者impala查詢匯出來可能會存在資料重複的現象，但又不想重新執行一遍查詢（查詢時間稍長，匯出檔案內容多）程式設計客棧，因此想到了使用linux命令將檔案的內容重複資料進行去除。

案例如下：

可以看到aaa.txx有3條重複資料

想去掉多餘的資料，只保留一條

sort aaa.txt 程式設計客棧| u程式設計客棧niq > bbb.txt

將aaa.txt檔案中重複資料去掉，輸出到bbb.txt

可以看到bbb.txt檔案中只保留了一條資料

二、資料交、並、差

1)、交集(相當於user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2)nzqihf、並集(相當於 user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3)、差集

user_2019.txt-user_2020.txt

sort user_2019.txt user_2020.txt user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

sort user_2020.tx程式設計客棧t user_2019.txt user_2019.txt | uniq -u

本文標題: linux實現檔案內容去重及求交並差集

本文位址:

Linux檔案內容去重

1 兩個檔案的交集，並集 1.取出兩個檔案的並集重複的行只保留乙份 cat file1 file2 sort uniq file3 2.取出兩個檔案的交集只留下同時存在於兩個檔案中的檔案 cat file1 file2 sort uniq d file3 3.刪除交集，留下其他的行 cat fi...

linux 檔案內容去重

1 sort filename uniq filename2 2 awk count 0 filename filename2 原始檔 codingants ubuntu awk cat dup hello world awkcoding ants hello world awkhello worl...

檔案內容去重及排序

本文將使用 php 和 linux sort 命令兩種方法，分別實現檔案內容去重及排序，並提供完成演示寫入1000000個數字，每行乙個數字 file user id.txt num 1000000 tmp for i 0 i num i 檢視檔案行數 wc l user id.txt 10000...

Linux實現檔案內容去重及求交並差集

Linux檔案內容去重

linux 檔案內容去重

檔案內容去重及排序

相關推薦