經常有這樣的需求:兩個文字檔案要求取重複的行或只取不重複的,簡單的情況下用sort和uniq來處理是非常方便的:
利用現存兩個檔案,生成乙個新的檔案
1. 取出兩個檔案的並集(重複的行只保留乙份)
2. 取出兩個檔案的交集(只留下同時存在於兩個檔案中的檔案)
3. 刪除交集,留下其他的行
1. cat file1 file2 | sort | uniq
2. cat file1 file2 | sort | uniq -d
3. cat file1 file2 | sort | uniq -u
當然如果需要計數也有乙個很好的引數uniq -c 可以將相同行數的計數放在行首
不過如果要求複雜,這個方法就不好用了,之後我會和大家分享乙個按列比較的指令碼。
------
sort [選項] 檔案
說明:sort命令對指定檔案中所有的行進行排序,並將結果顯示在標準輸出上。如不指定輸入檔案或使用「- 」,則表示排序內容來自標準輸入。
sort排序是根據從輸入行抽取的乙個或多個關鍵字進行比較來完成的。排序關鍵字定義了用來排序的最小的字串行。預設情況下以整行為關鍵字按ascii字元順序進行排序。
改變預設設定的選項主要有:
- m 若給定檔案已排好序,合併檔案。
- c 檢查給定檔案是否已排好序,如果它們沒有都排好序,則列印乙個出錯資訊,並以狀態值1退出。
- u 對排序後認為相同的行只留其中一行。
- o 輸出檔案 將排序輸出寫到輸出檔案中而不是標準輸出,如果輸出檔案是輸入檔案之一,sort先將該檔案的內容寫入乙個臨時檔案,然後再排序和寫輸出結果。
改變預設排序規則的選項主要有:
- d 按字典順序排序,比較時僅字母、數字、空格和製表符有意義。
- f 將小寫字母與大寫字母同等對待。
- i 忽略非列印字元。
- m 作為月份比較:「jan」<「feb」
- r 按逆序輸出排序結果。
-k, --key=pos1[,pos2] posl - pos2 指定乙個或幾個字段作為排序關鍵字,字段位置從posl開始,到pos2為止(包括posl,不包括pos2)。如不指定pos2,則關鍵字為從posl到行尾。欄位和字元的位置從0開始。
- b 在每行中尋找排序關鍵字時忽略前導的空白(空格和製表符)。
- t separator 指定字元separator作為字段分隔符。
uniq命令
檔案經過處理後在它的輸出檔案中可能會出現重複的行。例如,使用cat命令將兩個檔案合併後,再使用sort命令進行排序,就可能出現重複行。這時可以使用uniq命令將這些重複行從輸出檔案中刪除,只留下每條記錄的唯一樣本。
語法:uniq [選項] 檔案
說明:這個命令讀取輸入檔案,並比較相鄰的行。在正常情況下,第二個及以後更多個重複行將被刪去,行比較是根據所用字符集的排序序列進行的。該命令加工後的結果寫到輸出檔案中。輸入檔案和輸出檔案必須不同。如果輸入檔案用「- 」表示,則從標準輸入讀取。
該命令各選項含義如下:
- c 顯示輸出中,在每行行首加上本行在檔案中出現的次數。它可取代- u和- d選項。
- d 只顯示重複行。
- u 只顯示檔案中不重複的各行。
- n 前n個字段與每個欄位前的空白一起被忽略。乙個欄位是乙個非空格、非製表符的字串,彼此由製表符和空格隔開(欄位從0開始編號)。
+n 前n個字元被忽略,之前的字元被跳過(字元從0開始編號)。
- f n 與- n相同,這裡n是字段數。
- s n 與+n相同,這裡n是字元數。
------------------
更詳細的說明來自linux的man
用 sort 和 tsort 對檔案進行排序
spss 資料清洗 處理重複資料
spss 資料清洗 處理重複資料 資料匯入之後就需要對資料進行清洗。資料清洗主要是對多餘重複的資料篩選清除,將缺失的資料補充完整,將錯誤的資料糾正或者刪除。接下來操作如何將重複資料處理操作。步驟一 選擇 資料 標記重複個案 在 標記重複個案 對話方塊中,將所有的變數都放入 定義匹配個案的依據 框中,...
表中重複資料的處理
表中重複資料的處理 說明 tabname為有重複資料的表名,tabname new為新建的表名 1.create table tabname new 2.alter table tabname new add constraints primary key 唯一索引列 constraint tabl...
資料處理之去除重複資料
coding utf 8 1.概念 把資料結構中,行相同的資料只保留一行。語法 drop duplicates 該方法返回乙個去重後的資料框物件 from pandas import read csv df read csv d python workspace pythonstudy 8.csv ...