NLP的學習筆記(3)之Pandas庫

2021-09-28 14:47:54 字數 400 閱讀 4130

pandas是乙個強大的分析結構化資料的工具集;它的使用基礎是numpy(提供高效能的矩陣運算);用於資料探勘和資料分析,同時也提供資料清洗功能。

pandas最特別的地方就是有標籤列。

它是一種類似於一維陣列的物件,是由一組資料(各種numpy資料型別)以及一組與之相關的==資料標籤(即索引)==組成。僅由一組資料也可產生簡單的series物件。

dataframe是pandas中的乙個**型(二維陣列)的資料結構,包含有一組有序的列,每列可以是不同的值型別(數值、字串、布林型等),dataframe即有行索引也有列索引,可以被看做是由series組成的字典。

建立一維陣列:

NLP學習之隨筆(3)

spell correction 拼寫錯誤糾正 那麼什麼是拼接錯誤糾正。請看一下例子。簡而言之,就是使用者的輸入和使用者真正要輸入的存在一定的出入。這種出入可以是英文的拼寫錯誤,也可以是中文的同音詞。那麼對於拼寫錯誤,我們應該去如何解決呢。比如there 和therr。使用者的輸入可能是therr,...

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

NLP學習筆記1 2

開始學習nlp的第乙個模組jieba import nltk setence hello,world token nltk.word tokenize setence list token hello world import jieba 模糊模式 seg list list jieba.cut 2...