1.建立元素相同的列表:含乙個值的列表*n,得到n維含該值的列表
**:self.input_cells = [1.0] * self.input_n
結果:[1.0, 1.0, 1.0]
2.loc函式:按標籤取資料;iloc函式:按位置選擇資料,即第n行,第n列資料,只接受整型引數。記住,0:2為左閉右開區間,即取0,1。fillna函式:使用指定的方法填充缺失值
train.loc[:, "alley"] = train.loc[:, "alley"].fillna("none")
把alley列資料中為缺失值的資料填為none.
3.shape函式:檢視矩陣或者陣列的維數。
4.data.describe()函式:基本統計量。給出資料中的count數量,mean均值,std標準差,min最小值,25%下四分位,50%中位數,75%上四分位等資訊
data.corr() 函式:相關係數矩陣,即給出了任意兩個變數之間的相關係數
data.corr()[u'好'] #只顯示「好」與其他感**彩的相關係數
data[u'好'].corr(data[u'哭']) #兩個感**彩的相關係數
5.df.values.tolist()函式與[tuple(x) for x in df.values]:
參考:6.dataframe是python中pandas庫中的一種資料結構。類似於excel,是一種二維表。
7.k折交叉驗證:sklearn.model_selection.kfold(n_splits=3, shuffle=false, random_state=none)
8.特徵工程
對特徵進行處理。如數值型特徵歸一化處理。
關於特徵工程數值型、類別型詳細介紹:
9.lightbgm
10.pandas.dataframe.sample:隨機選取若干行
dataframe.sample(n=none, frac=none, replace=false, weights=none, random_state=none, axis=none)[source]
其中,對於引數random_state:作用:控制隨機狀態。
11.產生乙個3行4列的陣列,其中每個元素都是在[1,2]區間內均勻分布的隨機數
from numpy.random import randomstate
rdm = randomstate(1)
a = rdm.uniform(1,2,(3,4))
print(a)
12.x[i].fillna(x[i].mean(),inplace=true):使用平均值填充
清洗資料相關知識:
13.pandas讀取檔案的read_csv()方法的parse_dates引數
14.dataframe如何基於某一列修改某一列的值
df.loc[df.a>=2,'b'] = 'new_data'
稅收增長減少幸福感?
今年上半年的稅收資料顯示,前6個月全國稅收規模超過2003年全年收入總額,達到24947億元,同比增長了29 實際上,過去10年中國稅收年平均增長率20.5 遠遠超過了同期gdp每年約8.5 平均增長率。中國稅收增長大概有三次高峰,1997年 2004年和2006年至今,基本與中國經濟增長最快的年份...
Docker 實踐(七) 提公升幸福感
對程式設計師來說,阻礙幸福感最大的因素應該是那個偉大的牆了。本文對 docker 系統配置過程中,國內使用的一些加速的辦法做一些記錄和總結,希望能給有需要的人帶來微小的幫助。使用 docker 最佳教程應該是 docker 官方文件 了,但是沒梯子的狀態下訪問速度基本上很慢,還好這份文件是開源的 d...
職場分享 如何獲得職場幸福感
我以前很喜歡這份工作,可現在覺得越做越沒勁了 如今,諸如此類的埋怨在職場中不絕於耳,這是 職場幸福感 缺失的表現。1 生活壓力增大,幸福感陡降 現在,各行各業都要衝指標 寫總結 訂計畫,不僅工作量激增,而且物價不斷 生活成本不斷飆公升,難免會感到身心疲憊,職場幸福感 也由此成為職場人無法企及的奢侈品...