本文主要對numpy和pandas兩個常用的資料處理元件進行簡單介紹。
配套工具
環境配置不作詳述,基本上網上都能搜到。
python 3/2
numpy
pandas
matplotlib
jupyter
ipython
visual studio code
基本配置,在mac下的話配置十分方便,自要在自帶的python環境下配置好pip包管理工具,即可通過pip完成整個環境的配置:
除了ipython這個已經自帶開發環境的互動式shell之外,我們還可以利於vscode進行指令碼編輯和執行除錯。在配置好系統環境後,只要在vscode的擴充套件安裝python相關的外掛程式,即可完全在vscode中進行指令碼開發。在這裡給大家推薦乙個python系統學習q群:250933691有免費開發工具以及初學資料,(資料分析,爬蟲,ai,機器學習,神經網路)每天有老師給大家免費授課,歡迎一起交流學習。
下面是vscode下安裝jupyter是執行的樣例**:
輔助工具
numpy
numpy是python科學計算的基礎包,提供了以下功能(不限於此):
快速高效的多維陣列物件ndarray
對陣列執行元素級計算及直接對陣列執行數**算的函式(向量化)
用於讀寫硬碟上基於陣列的資料集工具
線性代數運算、傅利葉變換及隨機數生成
用於將c\c++\fortran**整合到python的工具
ndarray:一種多維陣列物件
ndarray是乙個快速而靈活的大資料集容器,你可以利用這種陣列對整塊資料執行一些數**算,其語法跟標量元素之間的運算一樣:
基本的索引和切片
索引和切片是ndarray重要的使用方式,對於資料處理有特別的作用。
資料切片是原始陣列的檢視,任何修改都會直接反映到源陣列上。
pandas
pandas提供了使我們能夠快速便捷地處理結構化資料的大量資料結構和函式。其中dataframe是最常用的結構,是乙個面向列的二維表結構,且含有行標和列標。兼具numpy高效能的陣列計算功能以及電子**和關係型資料庫靈活的資料處理功能。
基礎資料構建
series:類似一維陣列的物件。
可與ipython結合使用成為互動式資料繪圖環境,負責資料視覺化部分,下面是簡單的示例**。
python的科學計算標準工具集組成部分,將其他所有的東西聯絡到一起,為互動式和探索式計算提供了乙個強健而高效的環境。除了標準的基於終端的ipython shell外,還提供了:
乙個類似於mathematica的html筆記本
乙個基於qt框架的gui控制台,其中含有繪圖、多行編輯以及語法高亮顯示等功能。
用於互動式並行和分布式計算的基礎架構。
scipy
一組專門解決科學計算中各種標準問題域的包的集合,可用於解決各種數值積分、微分方程、矩陣之類的工具包。(不作詳述)
簡單實戰,如何清理分析日誌資料
例子,用python解析後台查詢的日誌。
讀書筆記2 利用Python進行資料分
series 索引index和資料values。可以看成乙個定長的有序字典。通過字典建立series df series s1 s1為字典。傳入字典,結果series中的索引就是原字典的鍵 有序排列 例如s a b df1 series df,index s nan 非數字,not a number...
利用python進行資料分析
目錄 10 minutes to pandas 翻譯 pandas中loc iloc ix的區別 pandas dropna函式 pandas中dataframe的stack unstack 和pivot 方法的對比 pandas中關於set index和reset index的用法 python匿...
利用python進行資料分析
利用python進行資料分析,需要了解一些基本的方法,比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的資料進行回歸分析,並得出相對精確地結論。這部分需要掌握的知識點如下 回歸分析 線性回歸 邏輯回歸 基本的分類演算法 決策樹 隨機森林 樸素貝葉斯 基本的聚類演算法 k mean...