numpy 提供陣列支援,以及相應的高效的處理函式
scipy 提供矩陣支援,以及矩陣相關的數值計算模組
matplotlib 資料視覺化工具,作相簿
pandas 強大、靈活的資料分析和探索工具
statsmodels 設計建模,統計模型估計,描述統計等
scikit-learn 支援回歸、分類、聚類等的強大的機器學習庫
keras 深度學習庫,用於建立神經網路以及深度學習模型
gensim 用來做文字主題模型的庫,文字挖掘會用到
一、numpy
python並沒有提供陣列功能,雖然列表可以完成基本的陣列功能,但他並不是真正的陣列,而且資料量較大時,使用列表的速度就會慢。
numpy提供了真正的陣列功能,以及快速處理的函式。numpy內建函式處理資料的速度是c語言級別的,因此在編寫程式的時候,應當盡量使用內建函式,避免出現效率瓶頸的現象。
二、scipy
numpy提供了多維陣列功能,但它只是一般的陣列,並不是矩陣。當兩個陣列相乘時,只是對應元素相乘,而不是矩陣乘法。
scipy提供了真正的矩陣,以及大量基於矩陣運算的物件與函式!scipy功能庫有最優化、線性代數、積分、插值、擬合、特殊函式、快速傅利葉變換、訊號處理和影象處理、常微分方程求解和其他科學工程中常用的計算,這都是挖掘與建模必備的!
三、matplotlib
資料視覺化,最著名的繪相簿,主要用於二維繪圖,可以簡單的三維畫圖。
中文標籤可能無法顯示,因為matplotlib預設英文本型,另外儲存作圖影象時,負號可能顯示不正常。「畫廊」,matplotlib做出的精美的圖可以用來做範例。
四、pandas
pandas是python下最強大的資料分析和探索工具。有高階的資料結構和精巧的工具,使得在python中處理資料非常快速和簡單。
pandas功能強大,支援類似於sql的增刪改查,並且帶有豐富的資料處理函式;支援時間序列分析功能;支援靈活處理缺失資料等。
pandas的使用,待加強!
pandas基本的資料結構是series和dataframe。series就是序列,類似一維陣列;dataframe則是相當於一張二維的**,類似二維陣列,它的每一列都是乙個series。每個series帶有對應的index,標記不同的元素,類似sql的主鍵。
dataframe相當於多個帶有同樣index的series的組合(本質是series的容器)
series以不同的表頭來標識。
五、statsmodels
pandas著眼於資料的讀取處理和探索,而statsmodels則更加注重資料的統計建模分析,它使得python類似r。與pandas進行資料互動,結合很強大。
六、scikit-learn
機器學習工具包,提供了完善的機器學習工具箱,包括資料預處理、分類、回歸、聚類、**和模型分析等。並不包含強大的模型–人工神經網路。
七、keras
基於theano的強大的深度學習庫,利用它不僅僅可以搭建普通的神經網路,還可以搭建各種深度學習模型,如自編碼器,迴圈、遞迴、卷積神經網路等。
theano可以搭建強大的神經網路模型,但是門檻高,keras簡化了搭建各種神經網路模型的步驟,定製的自由度非常大,簡單化搭建神經網路模型。
八、gensim
處理語言方面的任務,文字相似度計算、lda、word2vec等。
pandas提供了大量的與資料探索相關的函式,這些資料探索函式可大致分為統計特徵函式與統計做圖函式;而做圖函式依賴於matplotlib!
一、統計特徵函式
二、統計做圖函式
從資料質量分析和資料特徵分析兩個方面進行資料的探索分析。
資料質量分析要求我們拿到資料後先檢測是否存在缺失值和異常值;
資料特徵分析要求我們在資料探勘建模前,通過頻率分布分析、對比分析、帕累託分析、週期性分析、相關性分析方法,對採集的樣本資料的特徵規律進行分析,以了解資料的規律和趨勢,為後續的資料探勘環節提供支援。
在資料視覺化中,主要用pandas作為資料探索和分析工具,因此matplotlib和pandas結合使用。一方面,matplotlib是做圖工具的基礎,pandas作圖依賴於它;另一方面pandas作圖簡答直接的優勢。二者結合進行資料分析,和視覺化!
資料視覺化 總結
突然要做ppt,但是一般ppt的工具可以做的圖示太小了,雖然ppt中的圖示展示較少,更多的是流程圖 時序圖,但是有時候一些優秀的展示方式也可以讓我們的ppt更完美,ppt我覺得重點是內容,怎麼在一張空白頁上展示內容,有些圖 表可以幫助聽眾更快了解內容,消化內容,所以就想想,怎麼來展示我們的資料和內容...
Python資料視覺化總結
用python完成資料分析後,如何把結果呈現出來,比如畫乙個吸引人注意的圖表相當重要。當你探索乙個資料集,需要畫圖表,圖表看起來令人愉悅是件很高興的事。在給你的觀眾交流觀點,給領導匯報工作時,視覺化同樣重要,同時,也很有必要去讓圖表吸引注意力和印入腦海裡。在python中numpy,pandas,m...
資料視覺化 什麼是資料視覺化
資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...