自然語言處理(nlp)在今天已經變得越來越流行,尤其是在深度學習迅猛發展的大背景下變得更加引人注目。nlp屬於人工智慧的乙個領域,旨在理解文字和從中提取重要資訊,並在文字資料上做進一步的訓練。nlp的主要任務包括了語音識別和生成,文字分析,情感分析,機器翻譯等。
現下已經有許多任務具庫被設計來解決nlp問題。今天,我們根據我們的經驗列舉概述了六個最實用最受歡迎的自然語言處理庫,並對它們進行比較。不過我們列舉的這幾個庫在功能上,在解決的任務目標上,只有部分的重疊,所以有時很難對它們進行直接比較。我們將圍繞一些每個nlp庫共有的特性來進行比較。
一. 綜述
nltk (natural language toolkit) 用於執行諸如分詞,詞形還原,詞幹提取,解析,詞性標註等任務。該庫包含的工具可用於幾乎所有nlp任務。
spacy nltk的主要競爭對手。這兩個庫可用於相同的任務。
scikit-learn 為機器學習提供了乙個包羅永珍的工具庫,這其中就包含了用於文字預處理的工具。
gensim 乙個被用於主題和向量空間建模,計算文件相似性的工具包。
pattern 主要作為web挖掘模組被使用。因此,它僅被用來執行nlp的輔助類任務。
polyglot nlp的另乙個python包。它不是很受歡迎,但也可以用於各種nlp任務。
為了使比較更加清晰具體,我們製作了一張**來展示每個庫的優缺點。
二. 結論
在本文中,我們比較了六個十分流行的自然語言處理庫的部分功能。雖然它們大多數提供了解決相同任務的工具,但有些也使用獨特的方法來解決特定問題。當然,今天nlp最受歡迎的軟體包依然是nltk和spacy。他們彼此也是nlp領域的主要競爭對手。在我們看來,它們之間的區別主要在於解決問題的方**不一樣。
nltk更具學術性。您可以使用它來嘗試不同的方法和演算法,或將它們組合起來等等。相反,spacy為每個問題提供了乙個開箱即用的解決方案。你不必考慮哪種方法更好:spacy的作者已經給你想好了。此外,spacy非常快(比nltk快幾倍)。乙個缺點是spacy支援的語言數量有限,但是支援的語言數量一直在增加。所以,我們認為spacy在大多數情況下都是最佳選擇,但如果你想嘗試一些特別的東西,你可以使用nltk。
Excel常用函式公式TOP6(下)
正如我們所知,excel在資料分析中是乙個必不可少的工具,不管是分析師 業務還是運營人員,最常用到的工具軟體非excel莫屬,接下來介紹一下在excel中較為常用的一些函式公式。1.vlookup 條件查詢 函式用法 vlookup 要查詢的目標,查詢範圍,返回第幾列的內容,精確或者近似結果 ps ...
Excel常用函式公式TOP6(上)
正如我們所知,excel在資料分析中是乙個必不可少的工具,不管是分析師 業務還是運營人員,最常用到的工具軟體非excel莫屬,接下來介紹一下在excel中較為常用的一些函式公式。1.if函式 條件判斷 函式用法 if 需要判斷的條件,符合條件想返回的結果 不符合條件想返回的結果 2.if and 多...
關於 top 工具的 6 個替代方案
top 工具的替代方案 htop htop 是乙個流行的開源跨平台互動式程序管理器,也是我最喜歡的系統活動監控工具。htop 是對原版 top 工具的擴充套件。它最初只是用於 linux 系統,後來開發者們不斷為其新增對其它類 unix 作業系統的支援,包括 freebsd 和 mac os。hto...