摘要: 本文簡要介紹了當前較為流行的12種對資料科學任務有價值的類unix作業系統命令列工具:wget,cat,wc,head,tail,find,cut,uniq,awk,grep,sed,history。
這篇文章簡要介紹了十幾種用於資料科學任務的類unix作業系統命令列工具。這些工具並不包括通用的檔案管理命令(pwd,ls,mkdir,rm,...)或遠端會話管理工具(rsh,ssh,...),而是由對資料科學比較有用的實用程式組成,通常會涉及到不同程度的資料檢查和處理。這些工具都包含在乙個典型的類unix作業系統中。
這些都是公認的初級階段所需要使用的工具,你也可以在這個基礎上自行查詢一些命令的例子。工具名稱的鏈結是維基百科對該工具的介紹,而不是工具手冊,在我看來,對於新手來說,維基百科要比工具手冊要更實用。
head將檔案的前n行(預設為10)標準輸出。-n選項可以設定顯示的行數。
tail用於輸出檔案的尾部資訊。
find用於搜尋檔案系統中的特定檔案。
下圖中命令的含義:從當前目錄(「.」)開始搜尋以「iris」開始、任意型別字元結尾(「-name'iris *'」)、普通檔案型別(「-type f「)的檔案。
cut用於從檔案中提取文字中的一列。雖然提取出來的列可以使用各種標準進行製作,但cut可以用於從csv檔案中提取一部分資料。
下圖中命令的含義:使用逗號(「-d','」)作為字段分隔符輸出iris.csv檔案的第五列(「-f 5」)。
##8.uniq
下圖中命令的含義:列出iris資料集類名第五列重複的次數。
awk實際上並不是乙個「命令」,而是一種完整的程式語言。用於處理和提取文字,並且可以在命令列以單行命令呼叫。
掌握awk需要花費一些時間,但在此之前,這是它能夠簡單完成的乙個示例。考慮到我們的示例檔案iris.csv相當有限(尤其涉及到文字多樣性時),該行呼叫awk,在給定檔案(「iris.csv」)內搜尋字串「setosa」 ,並逐一列印到標準輸出,並列印整行(儲存在$ 0變數中)。
grep是另一種文字處理工具,用於匹配字串和正規表示式。
history非常簡單,尤其是在你依賴於複製使用過的命令時,這個命令特別有用。
以上12個命令都是最基本的命令列工具,了解並熟悉其用法對你在資料科學的學習中大有用處。
文章原標題《top 12 essential command line tools for data scientists》
詳細內容請檢視原文。
你需要熟練運用的12個命令列工具
摘要 本文簡要介紹了當前較為流行的12種對資料科學任務有價值的類unix作業系統命令列工具 wget,cat,wc,head,tail,find,cut,uniq,awk,grep,sed,history。這篇文章簡要介紹了十幾種用於資料科學任務的類unix作業系統命令列工具。這些工具並不包括通用的...
開發命令列工具的 12 個最佳實踐
簡評 設計良好的命令列應用是極富生產力的工具,本文介紹了開發命令列工具的 12 個最佳實踐 cli 是構建產品的絕佳方式,與 web 應用不同的是它需要的時間更少,並且功能更強大。使用web,你可以執行開發人員編寫的任何操作,使用 cli,你可以輕鬆地將多個工具混合在一起以執行更加高階的任務,而這需...
初始命令列,你需要知道哪幾點?
命令提示符 cmd 是在作業系統中,提示進行命令輸入的一種工作提示符。在不同的作業系統環境下,命令提示符各不相同。一般說的 命令列 是指linux命令,linux命令是對linux系統進行管理的命令。我們今天可以來簡單的認識幾個命令。1 ls 檢視路徑,我們可以ls列出當前目錄下目錄和檔案 ls a...