Shell下做簡單的文字去重交集並集

工作中經常會碰到要拉取資料情況，有了資料之後做乙個簡單的處理。

記錄一下最常用到的做去重的操作

假設有檔案list1

112

2334

只用一條命令就能做去重的操作

cat list1 | uniq -u

結果會顯示乙個 4

當然，如果要篩選出有過重複的數字，只要修改乙個引數

cat list1 | uniq -d

結果就是 1 2 3

那麼，如果想針對多個檔案處理呢，其實也是一條語句就能解決了

cat list1 list2 list3 | sort | uniq -u

這樣就能把這些檔案中只出現一次的篩選出來。

所以，求檔案的交集、並集也就很簡單了

並集：

cat $file1 $file2 | sort | uniq

交集：

cat $file1 $file2 | sort | uniq -d

當前，求交並集的前提是這些檔案裡邊的值都是唯一的，如果不唯一，就得用其他方法了，不贅述。

shell命令技巧文字去重並保持原有順序

簡單來說，這個技巧相應的是例如以下一種場景假設有文字例如以下 cccc aaaa bbbb dddd bbbb cccc aaaa如今須要對它進行去重處理。這個非常easy，sort u就能夠搞定，可是假設我希望保持文字原有的順序。比方這裡有兩個aaaa，我僅僅是希望去掉第二個aaaa，而第乙個a...

解析Shell程式設計中的「去重「

原因在編寫自動化指令碼的時候發現,需要使用到迴圈來遍歷某個檔案中的內容,但此檔案中存在大量的重複無用的資料,需要將其去重實踐中採用sort和uniq命令來對其進行去重,並發現兩者不同實際例子如下此處處理的檔名為data root ip 10 0 1 169 cat data 123456...

基於simhash的短文本去重

usr bin env python coding utf 8 利用simhash進行文字去重 from simhash import simhash,simhashindex import jieba import codecs import datetime import os class du...

Shell下做簡單的文字去重 交集 並集

shell命令技巧 文字去重並保持原有順序

解析Shell程式設計中的 「去重「

基於simhash的短文本去重

相關推薦

Shell下做簡單的文字去重交集並集

shell命令技巧文字去重並保持原有順序

解析Shell程式設計中的「去重「