資料分析入門到入土

2021-09-25 18:49:15 字數 1670 閱讀 4424

1、numpy包資料結構是n維的陣列物件,叫ndarray

import numpy as np其中np是numoy約定俗成的縮寫

建立陣列numpy中array函式,新手記得加「np」

imput:

data = [[1,3,4],[2,4,5]]

array=np.array(data)

array2

out: array([1,3,4],[2,4,5])

2、關於pandas,pandas是python的乙個資料分析包,包括series,dataframe,panel三種資料結構。

3、資料型別

logical (邏輯型)即bool只有兩種取值1或者0,運算子有&(與,一假全假)|(或,一真則真)not(非)

numeric數值型 即運算子+ - * /(加減乘除)

character字元型 一般用『』或「」包起來,注意變數名不能用python中保留字,比如and、continue、lambda、or等

4、訪問某一行時,不能僅用index來訪問,例如訪問df的index=1的行,df不對,要寫成df[1:2]

5、資料匯入

資料存在的形式多宗多樣,有檔案(csv、txt、excel等等),資料庫(mysql、access、sql server)等形式。在pandas中,常用載入函式有read_csv,read_table,read_excel。若是伺服器相關的部署,還會用到read_sql直接訪問資料庫

注意:匯入時要注意txt檔案儲存為utf-8才不會報錯

6、資料匯出

to_csv(file_path,sep=", ", index=true,header=true)

sep是分隔號,預設逗號。index表示是否匯出行序號,預設true,header表示是否匯出列序號,預設是true

to_excel 同上

7、資料處理

資料處理是一項複雜而繁瑣的工作,一方面它可以提高資料質量,另一方面能讓資料更好的適應資料分析工具。資料處理的主要內容包括資料清洗、資料抽取、資料交換和資料計算等。

資料清洗

資料清洗就是處理缺失的資料以及清除無意義的資料,如刪除原始資料集中的無關資料、重複資料、平滑雜訊等資料,篩選掉與分析主題無關的資料,處理缺失值、異常值等

重複值處理:

duplicated(self,subset=none,keep=『first』)

缺失值處理

1)缺失資料的識別pandas使用浮點數表示浮點和非浮點陣列裡的缺失資料,並使用.isnull和.notnull函式來判斷缺失情況

2)缺失資料處理

dropna():去除資料結構中值為空的資料行

df.fillna():用其他資料替代nan

資料抽取

9、資料合併

記錄合併:指兩個結構相同的資料框合併成乙個資料框

concat([dataframe1,dataframe2,…])

字段合併:指同乙個資料框中不同列合併

字段匹配:不同結構資料框按照一定的條件進行匹配合併

merge(x,y,left_on,right_on)

10、資料計算

包括簡單計算和資料標準化

11、資料分組 根據資料分析物件特徵,按照一定資料指標,把資料劃分為不同區間來進行研究

cut(series,bins,right=true,labels=null)

Nmap入門到入土

nmap是一款開放源 的 網路探測和安全審核的工具。它的設計目標是快速地掃瞄大型網路。nmap以新穎的方式使用原始ip報文來發現網路上有哪些主機,那些 主機提供什麼服務 應用程式名和版本 那些服務執行在什麼作業系統 包括版本資訊 它們使用什麼型別的報文過濾器 防火牆,以及一堆其它功能。雖然nmap通...

Linux從入門到入土

在此開個專題,用來記錄一下在使用linux中常用的命令。持續更新 常見錯誤 dpkg i 檔名cmake dcmake install prefix usr include ar 解包 tar zxvf filename.tar 打包 tar czvf filename.tar dirname gz...

cmake 從入門到入土

你或許聽過好幾種 make 工具,例如 這些 make 工具遵循著不同的規範和標準,所執行的 makefile 格式也千差萬別。這樣就帶來了乙個嚴峻的問題 如果軟體想跨平台,必須要保證能夠在不同平台編譯。而如果使用上面的 make 工具,就得為每一種標準寫一次 makefile 這將是一件讓人抓狂的...