shuf-n5 main.txt
sort-r main.txt | head -5
awk-vn=5 -vc="`wc -l file`" 'begin'
shuf 命令的選項:
-e, --echo :將每個引數視為輸入行ref:-i, --input-range=lo-hi :將lo 到hi 的每個數字視為輸入行
-n, --head-count=行數 : 最多輸出指定的行數
-o, --output=檔案 :將結果輸出到指定檔案而非標準輸出
--random-source=檔案 :從指定檔案獲得隨機位元
-z, --zero-terminated :以0 結束行而非新行
--help :顯示此幫助資訊並退出
--version :顯示版本資訊並退出
從大檔案中隨機抽取一定資料
在建模的時候,時常需要構造訓練集和測試集,但當總資料比較大的時候,如何進行簡單抽樣也是乙個問題。假設有這樣乙個情況,乙份資料總共有1,000,000條,要從中抽取100,000條左右的資料。每條資料相對比較大,把所有資料一次放入記憶體不靠譜,那麼如何抽樣呢?最齪的方法就是抽取頭100,000或100...
linux 隨機抽取檔案中N行
1.shell命令 直接用shuf n5 t.txt l則隨機在t.txt 中抽取5列 到l中 2.awkawk begin input file sort nk 1 head n line num awk f t 3.pythonimport random import linecache 乙個1...
python 隨機抽取Fastq檔案
參考 最近要做乙個二代測序的模擬,所以網上找了個小指令碼,做了些注釋,希望能夠幫助大家。from future import division import random number to sample 3000000 number of replicates 10 計算行數 with open ...