1- make_classification
構造虛擬資料集,主要通過n_samples,n_features, n_classes,weights來進行構建,後期可能會使用到n_redunant和n_informative等進行特徵之間相關度的分析。
x,y=datasets.make_classification(
n_samples=2000,
n_features=10,#每個樣本具有10個特徵
n_informative=4,
n_redundant=1,
n_classes=2,
n_clusters_per_class=1,#每個類別有幾個簇構成
weights=[0.1,0.9],#樣本比例
flip_y=0.1,#應該是造成誤差(引入雜訊)的意思,樣本之間標籤交換
random_state=2019
)df_all=pd.dataframe(x)
df_all["y"]=y
#對資料做pca降維
pca=pca(n_components=2)
pca.fit(x)
x_pca=pca.transform(x)
df_x=pd.dataframe(columns=["pca_a","pca_b","y"])
df_x.pca_a=x_pca[:,0]
df_x.pca_b=x_pca[:,1]
df_x.y=y
print(type(x_pca))
print(x.shape," --> ",x_pca.shape)
sns.lmplot(x="pca_a",y="pca_b",data=df_x,hue="y",fit_reg=false,markers=["o","x"],size=8,aspect=1.5,legend=true)
2- cnews
為10類中文文字資料集,在資料送入神經網路之前,需要將文字資料轉為tensor格式。可以使用onehot形式,但是矩陣大小為n_word*n_review,如果使用最長句子長度,則為n_max_len*n_review。只選取前10000的詞頻排序的詞,將句子對應的單詞轉為數字,同時n_max_length歸一化,少於該長度則做補全,多於該長度,則做截斷。使用字級別的,省去了分詞以及oov的問題。參考**沒有做stopwords的處理,依然取得了比較好的效果,後期詳細學習。
3- imdb
imdb為英文資料,資料集中最長的句子長度為2494,長度中位數為178,眾數為132,但最後選取歸一化長度為256,經測試,256高於178的acc。在構建好word_to_id之後,需要注意新增"",""。
具體**在
cnews目前**有問題,待修正。
參考:fication-cnn-rnn
待嘗試部分:
特徵選擇:
13 資料分類模型
一 資料分類模型 資料庫的型別是根據資料模型來劃分的,而任何乙個dbms也是根據資料模型有針對性地設計出來的,這就意味著必須把資料庫組織成符合dbms規定的資料模型。目前成熟地應用在資料庫系統中的資料模型有 層次模型 網狀模型和關係模型。它們之間的根本區別在於資料之間聯絡的表示方式不同 即記錄型之間...
資料模型分類
轉 資料模型按不同的應用層次分成三種型別 分別是概念資料模型 邏輯資料模型 物理資料模型。1 概念資料模型 conceptual data model 簡稱 概念模型 主要用來描述世界的概念化結構,它使資料庫的設計人員在設計的初始階段,擺脫計算機系統及dbms的具體技術問題,集中精力分析資料以及資料...
分類模型和回歸模型
分類 概念 對於分類問題,監督學習從資料中學習乙個分類模型或者分類決策函式,稱為分類器。分類器對新的輸入 其屬於哪一類別,稱為分類。優化過程 找到最優決策面 輸出 離散值,如0 1,yes no 評價指標 一般是精確率,即給定測試資料集,分類器能正確分類的樣本數佔總樣本數的比。模型損失函式 交叉熵損...