你需要熟練運用的12個命令列工具

摘要：本文簡要介紹了當前較為流行的12種對資料科學任務有價值的類unix作業系統命令列工具：wget，cat，wc，head，tail，find，cut，uniq，awk，grep，sed，history。

這篇文章簡要介紹了十幾種用於資料科學任務的類unix作業系統命令列工具。這些工具並不包括通用的檔案管理命令（pwd，ls，mkdir，rm，...）或遠端會話管理工具（rsh，ssh，...），而是由對資料科學比較有用的實用程式組成，通常會涉及到不同程度的資料檢查和處理。這些工具都包含在乙個典型的類unix作業系統中。

這些都是公認的初級階段所需要使用的工具，你也可以在這個基礎上自行查詢一些命令的例子。工具名稱的鏈結是維基百科對該工具的介紹，而不是工具手冊，在我看來，對於新手來說，維基百科要比工具手冊要更實用。

head將檔案的前n行（預設為10）標準輸出。-n選項可以設定顯示的行數。

tail用於輸出檔案的尾部資訊。

find用於搜尋檔案系統中的特定檔案。

下圖中命令的含義：從當前目錄（「.」）開始搜尋以「iris」開始、任意型別字元結尾（「-name'iris *'」）、普通檔案型別（「-type f「）的檔案。

cut用於從檔案中提取文字中的一列。雖然提取出來的列可以使用各種標準進行製作，但cut可以用於從csv檔案中提取一部分資料。

下圖中命令的含義：使用逗號（「-d'，'」）作為字段分隔符輸出iris.csv檔案的第五列（「-f 5」）。

##8.uniq

下圖中命令的含義：列出iris資料集類名第五列重複的次數。

awk實際上並不是乙個「命令」，而是一種完整的程式語言。用於處理和提取文字，並且可以在命令列以單行命令呼叫。

掌握awk需要花費一些時間，但在此之前，這是它能夠簡單完成的乙個示例。考慮到我們的示例檔案iris.csv相當有限（尤其涉及到文字多樣性時），該行呼叫awk，在給定檔案（「iris.csv」）內搜尋字串「setosa」，並逐一列印到標準輸出，並列印整行（儲存在$ 0變數中）。

grep是另一種文字處理工具，用於匹配字串和正規表示式。

history非常簡單，尤其是在你依賴於複製使用過的命令時，這個命令特別有用。

以上12個命令都是最基本的命令列工具，了解並熟悉其用法對你在資料科學的學習中大有用處。

文章原標題《top 12 essential command line tools for data scientists》

詳細內容請檢視原文。

你需要熟練運用的12個命令列工具

你需要熟練運用的12個命令列工具

開發命令列工具的 12 個最佳實踐

初始命令列，你需要知道哪幾點？

你需要熟練運用的12個命令列工具

你需要熟練運用的12個命令列工具

開發命令列工具的 12 個最佳實踐

初始命令列，你需要知道哪幾點？

相關推薦