常用又常忘的語句2(Python)

2021-10-08 10:02:29 字數 2013 閱讀 9844

邏輯回歸:

1、data.drop_duplicates(inplace = true)    # 去除重複項

data.index = range(data.shape[0])        # 刪除之後,要恢復索引,否則預設行數還是不變,只是將內容刪除

2、# 檢視每一列的缺失情況

data.isnull().sum() / data.shape[0]

《===等價===》data.isnull().mean()

3、# 顯示這一列所有的取值

data.loc[:,"numberoftimes90dayslate"].value_counts()

4、# 顯示這一列所有的取值

data.loc[:,"numberoftimes90dayslate"].value_counts()

5、# 列印時可參考下面的格式,要填入的內容在中括號中

print('樣本個數:{};1佔; 0 佔'.format(n_sample,n_1_sample / n_sample,n_0_sample / n_sample))

6、#按照等頻對需要分箱的列進行分箱

# dataframe['列名']   當這個列存在的時候,就是索引;當這個列不存在的時候,dataframe會自動生成叫這個列名的乙個新的列

model_data['qcut'],updown =pd.qcut(model_data['age'],retbins = true,q = 20)

pd.qcut

,基於分位數的分箱函式,本質是將連續型變數離散化

只能夠處理一維資料。返回箱子的上限和下限

引數q:要分箱的個數

引數retbins=true

來要求同時返回結構為索引為樣本索引,元素為分到的箱子的

series

現在返回兩個值:每個樣本屬於哪個箱子,以及所有箱子的上限和下限 #

在這裡時讓

model_data

新新增一列叫做「分箱

」,這一列其實就是每個樣本所對應的箱子

7、#使用資料透視表的功能

groupby

model_data[model_data['seriousdlqin2yrs']== 1].groupby(by  = 'qcut').count()['seriousdlqin2yrs']

8、# 使用zip可以實現將列表變成元組

如:[*zip([1,2,3],['a','b','c'])]

結果顯示為:[(1,'a'),(2,'b'),(3,'c')]

9、# 改變行列

a = np.random.random((2,4))

a.reshape(4,2)        #《*****等價於*****》np.reshape(a,(4,2))

svm:

1、# 對資料進行標準化,將資料轉化為在(0,1)之間的正態分佈

from sklearn.preprocessing import standardscaler

x = standardscaler().fit_transform(x)

2、np.unique(y)  # 表示去重,檢視有幾個值

3、# 使用降維

from sklearn.decomposition import pca

x_dr = pca(2).fit_transform(x)

命令語句 常忘常用常記

方便查詢 刪除資料夾 rm rf 資料夾名移動檔案 安裝vue專案 npm install執行vue專案 npm run dev執行django專案 python3 manage.py runserver 0.0.0.0 8888啟動資料庫服務 service mysqld start建立資料庫命令...

2 Python之流程控制語句

目錄 1 條件語句 2 迴圈語句 2.1 for迴圈語句 2.2 while迴圈語句 與其它很多程式語言一樣,python也有自己的流程控制語句。但是,python中的表示程式結構的語句不需要使用 括起來,二十以乙個冒號作為結尾,以縮排作為語句塊。python中的流程控制語句主要包含迴圈 條件分支和...

linux常用常忘的命令格式記錄

1.sed sed是乙個很好的檔案處理工具,本身是乙個管道命令,主要是以行為單位進行處理,可以將資料行進行替換 刪除 新增 選取等特定工作,下面先了解一下sed的用法 sed命令列格式為 sed nefri command 輸入文字 常用選項 n 使用安靜 silent 模式。在一般 sed 的用法...