具體來說,我常用的python在統計上面的package有這樣一些
1.numpy與scipy。這兩個包是python之所以能在資料分析占有一席之地的重要原因。其中numpy封裝了基礎的矩陣和向量的操作,而scipy則在numpy的基礎上提供了更豐富的功能,比如各種統計常用的分布和演算法都能迅速的在scipy中找到。
2.matplotlib。這個package主要是用來提供資料視覺化的,其功能強大,生成的圖示可以達到印刷品質,在各種學術會議裡面出鏡率不低。依託於python,可定製性相對於其他的圖形庫更高。還有乙個優點是提供互動化的資料分析,可以動態的縮放圖表,用做adhoc analysis非常合適。
3.scikit learn。非常好用的machine learning庫,適合於用於快速定製原型。封裝幾乎所有的經典演算法(神經網路可能是唯一的例外,不過這個有pylearn2來補充),易用性極高。
4.python標準庫。這裡主要是體現了python處理字串的優勢,由於python多功能的屬性和對於正規表示式的良好支援,用於處理text是在合適不過的了。
基本上就日常使用就涉及這些。符號運算等等也有sympy和theano等強力第三方庫來支援。總結,python在你列舉這些裡面是綜合功能最強大的,但是這些功能分散在第三方庫裡面,沒有得到有機的整合,相應的學習成本會較高。
MATLAB在資料分析方面的應用
引數為向量時 引數為矩陣時 標準差 呼叫格式 std x 計算向量x的標準差。std a 計算矩陣a的各列的標準差。std a,flag,dim flag取0或1,當flag 0時,按s所列公式計算 樣本標準差 當flag 1時,按s2所列公式計算總體標準差。預設情況下,flag 0,dim 1。x...
R和python資料分析方面的對比爭論
面對大量的資料進行分析時,選擇一款好的工具或者方法至關重要,節約時間的同時,還能讓資料結構清晰明了,在最近幾年,用r,python的人越來越多,於是出現了眾多關於用哪個做資料分析最好的爭議。在這裡分享一下關於r和python資料分析方面的觀點 首先,從整體來說,認為資料分析需要的是在有限時間內,用最...
MPII資料集單人方面的資料分析!!!
1 在訓練hourglass的時候,有幾個檔案需要清楚 annot.h5檔案是包含了25925個人的訓練集,對應著17408張 train.h5是包含了22246個人的訓練集,對應著14679張 valid.h5是包含了2958個人的驗證集,對應著2729張 test.h5是包含了11731個人的測...