第三單元 資料預處理

2021-10-06 21:37:34 字數 3873 閱讀 5395

執行以下**

from sklearn.datasets import load_iris

iris_data = load_iris()

iris_data.data.shape

輸出結果為(150, 4)。則表示iris資料集包括樣本個數為( )。

a.154

b.600

c.4

d.150

在numpy包中,計算標準差的函式為( )。

a.numpy.mean()

b.numpy.var()

c.numpy.median()

d.numpy.std()

給定df是乙個dataframe物件,對df所有字段進行描述性統計,可以利用的方法為( )。

a.df.describe()

b.df.mean()

c.df.statistics()

d.df.summary()

執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製餅狀圖,需要利用的函式為( )。

a.plt.plot()

b.plt.pie()

c.plt.bar()

d.plt.hist()

執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製折線圖,需要利用的函式為( )。

a.plt.hist()

b.plt.pie()

c.plt.plot()

d.plt.bar()

執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製直方圖,需要利用的函式為( )。

a.plt.pie()

b.plt.hist()

c.plt.plot()

d.plt.bar()

執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製散點圖,需要利用的函式為( )。

a.plt.bar()

b.plt.hist()

c.plt.scatter()

d.plt.plot()

使用最小-最**進行資料規範化,需要對映的目標區間為[0,100],原來的取值範圍是[-10,10]。根據等比對映的原理,乙個值8對映到新區間後的值是( )。

a.95

b.80

c.85

d.90

使用等距離分箱法進行資料離散化,資料範圍為20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,區間個數為4。下列屬於4個箱的區間是( )。

a.(65,110)

b.(155,200]

c.[20,65]

d.[110,155)

特徵選擇方法中,一般的啟發式方法有( )。

a.隨機選擇

b.逐步增加法

c.逐步遞減法

d.以上都是

關聯規則的挖掘演算法只能處理( )型別的取值,為此( )是繼續其知識發現過程的必要步驟。

a.連續;資料規範化

b.離散;資料離散化

c.離散;資料規範化

d.連續;資料離散化

( )是指對描述物件的屬性進行重新組合,獲得一組反映事物本質的少量的新的屬性的過程。( )是指從屬性集合中選擇那些重要的、與分析任務相關的子集的過程。

a.特徵提取;特徵選擇

b.特徵選擇;特徵提取

c.資料選擇;資料提取

d.資料提取;資料選擇

下列不屬於資料預處理原因的是( )。

a.資料可能存在缺失、錯誤、不一致等問題

b.資料量過於龐大

c.有些資料屬性是無用的或者冗餘的

d.資料有可能不能很好地反映潛在的模式

缺失值處理方法中錯誤的是( )。

a.對於分類屬性,使用同類物件屬性值的均值

b.轉換為分類問題或數值**問題

c.對於所有屬性都可以使用均值

d.對於離散屬性或定性屬性,使用眾數

主成分分析的步驟是( )。

a.中心化資料集-計算協方差矩陣-計算特徵根-計算主成分矩陣-得到降維後的資料集

b.中心化資料集-計算主成分矩陣-計算協方差矩陣-計算特徵根-得到降維後的資料集

c.計算協方差矩陣-計算特徵根-中心化資料集-計算主成分矩陣-得到降維後的資料集

d.計算協方差矩陣-計算主成分矩陣-計算特徵根-中心化資料集-得到降維後的資料集

下列關於等距離分箱的說法中錯誤的是( )。

a.等距離分箱可能導致屬於某些的取值非常多,而某些又非常少

b.又稱為等寬度分箱

c.若區間個數為k,每個區間的間距為i=(max-min)/k

d.等距離分箱能使每個區間內包含的取值個數大致相同

使用python處理缺失值的方法中敘述錯誤的是( )。

a.dropna()刪除缺失值

b.fillna()填充缺失值

c.interpolate()使用中位數填充缺失值

d.isnull()判斷缺失值

最小最大規範化方法minmaxscaler屬於python中的哪個包( )。

a.scipy

b.sklearn

c.numpy

d.pandas

主成分分析方法pca屬於屬於python中的哪個包( )。

a.scipy

b.sklearn

c.numpy

d.pandas

最小-最**中,假設需要對映到目標區間為[l,r ],原來的取值範圍為[l, r ]。乙個值x對映到新區間後的值v的計算方法是( )

在利用中文文字繪製詞云時,需要在anaoncda的基礎上安裝哪些工具包( )。

a.scikit-learn

b.matplotlib

c.wordcloud

d.jieba

資料清洗的主要目的是將資料集中存在的( )和( )進行處理,降低其對後續資料分析處理的影響。

a.最大值

b.雜訊

c.最小值

d.缺失

有監督的離散化方法常用的有分箱法和chimerge方法。×

基於熵的方法可以被看做是自頂向下的**方法,chimerge則屬於自底向上的合併方法。√

一種簡單的填補缺失值的方法為, 將屬於同一類的物件的該屬性值的均值賦予此缺失值。√

基於熵的離散化方法是常用的有監督的離散化方法。√

將資料分為n個等頻的箱中,可以⽤箱均值、箱中位數或箱邊界光滑資料。√

在主成分分析中,每個主成分都是原始變數的線性組合,且各個主成分之間互不相關。√

等距離分箱可能導致屬於某些區間的取值非常多,而某些區間的取值又非常少。等頻則能夠解決此問題。

使用主成分分析法進行資料屬性特徵提取中,每個新的特徵是原有特徵的線性組合

2018 03 22 第三章 資料預處理

資料要滿足應用需求,必須是高質量的。高質量是指 準確性 完整性 一致性 時效性 可信性和可解釋性。3.1.2 資料預處理的主要任務?資料預處理的主要步驟是 不互斥 資料清理 資料整合 資料規約和資料變換。3.2 資料清理 現實世界的資料一般是不完整的 有雜訊的和不一致的 資料清理例程試圖填充缺失的值...

資料探勘 (三) 資料預處理

1 準確性 2 完整性 3 一致性 4 時效性 5 可信性 反映有多少資料是使用者信賴的 6 可解釋性 反映資料是否容易理解 改進資料質量,有助於提高其後的挖掘過程的準確率和效率,是知識發現過程的重要步驟 1 資料清理 資料清理例程通過填寫缺失的值,光滑雜訊資料,識別或刪除離群點,並解決糾正資料中的...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...