執行以下**
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.data.shape
輸出結果為(150, 4)。則表示iris資料集包括樣本個數為( )。
a.154
b.600
c.4
d.150
在numpy包中,計算標準差的函式為( )。
a.numpy.mean()
b.numpy.var()
c.numpy.median()
d.numpy.std()
給定df是乙個dataframe物件,對df所有字段進行描述性統計,可以利用的方法為( )。
a.df.describe()
b.df.mean()
c.df.statistics()
d.df.summary()
執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製餅狀圖,需要利用的函式為( )。
a.plt.plot()
b.plt.pie()
c.plt.bar()
d.plt.hist()
執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製折線圖,需要利用的函式為( )。
a.plt.hist()
b.plt.pie()
c.plt.plot()
d.plt.bar()
執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製直方圖,需要利用的函式為( )。
a.plt.pie()
b.plt.hist()
c.plt.plot()
d.plt.bar()
執行以下**」 import matplotlib.pyplot as plt」引入plt後,要繪製散點圖,需要利用的函式為( )。
a.plt.bar()
b.plt.hist()
c.plt.scatter()
d.plt.plot()
使用最小-最**進行資料規範化,需要對映的目標區間為[0,100],原來的取值範圍是[-10,10]。根據等比對映的原理,乙個值8對映到新區間後的值是( )。
a.95
b.80
c.85
d.90
使用等距離分箱法進行資料離散化,資料範圍為20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,區間個數為4。下列屬於4個箱的區間是( )。
a.(65,110)
b.(155,200]
c.[20,65]
d.[110,155)
特徵選擇方法中,一般的啟發式方法有( )。
a.隨機選擇
b.逐步增加法
c.逐步遞減法
d.以上都是
關聯規則的挖掘演算法只能處理( )型別的取值,為此( )是繼續其知識發現過程的必要步驟。
a.連續;資料規範化
b.離散;資料離散化
c.離散;資料規範化
d.連續;資料離散化
( )是指對描述物件的屬性進行重新組合,獲得一組反映事物本質的少量的新的屬性的過程。( )是指從屬性集合中選擇那些重要的、與分析任務相關的子集的過程。
a.特徵提取;特徵選擇
b.特徵選擇;特徵提取
c.資料選擇;資料提取
d.資料提取;資料選擇
下列不屬於資料預處理原因的是( )。
a.資料可能存在缺失、錯誤、不一致等問題
b.資料量過於龐大
c.有些資料屬性是無用的或者冗餘的
d.資料有可能不能很好地反映潛在的模式
缺失值處理方法中錯誤的是( )。
a.對於分類屬性,使用同類物件屬性值的均值
b.轉換為分類問題或數值**問題
c.對於所有屬性都可以使用均值
d.對於離散屬性或定性屬性,使用眾數
主成分分析的步驟是( )。
a.中心化資料集-計算協方差矩陣-計算特徵根-計算主成分矩陣-得到降維後的資料集
b.中心化資料集-計算主成分矩陣-計算協方差矩陣-計算特徵根-得到降維後的資料集
c.計算協方差矩陣-計算特徵根-中心化資料集-計算主成分矩陣-得到降維後的資料集
d.計算協方差矩陣-計算主成分矩陣-計算特徵根-中心化資料集-得到降維後的資料集
下列關於等距離分箱的說法中錯誤的是( )。
a.等距離分箱可能導致屬於某些的取值非常多,而某些又非常少
b.又稱為等寬度分箱
c.若區間個數為k,每個區間的間距為i=(max-min)/k
d.等距離分箱能使每個區間內包含的取值個數大致相同
使用python處理缺失值的方法中敘述錯誤的是( )。
a.dropna()刪除缺失值
b.fillna()填充缺失值
c.interpolate()使用中位數填充缺失值
d.isnull()判斷缺失值
最小最大規範化方法minmaxscaler屬於python中的哪個包( )。
a.scipy
b.sklearn
c.numpy
d.pandas
主成分分析方法pca屬於屬於python中的哪個包( )。
a.scipy
b.sklearn
c.numpy
d.pandas
最小-最**中,假設需要對映到目標區間為[l,r ],原來的取值範圍為[l, r ]。乙個值x對映到新區間後的值v的計算方法是( )
在利用中文文字繪製詞云時,需要在anaoncda的基礎上安裝哪些工具包( )。
a.scikit-learn
b.matplotlib
c.wordcloud
d.jieba
資料清洗的主要目的是將資料集中存在的( )和( )進行處理,降低其對後續資料分析處理的影響。
a.最大值
b.雜訊
c.最小值
d.缺失
有監督的離散化方法常用的有分箱法和chimerge方法。×
基於熵的方法可以被看做是自頂向下的**方法,chimerge則屬於自底向上的合併方法。√
一種簡單的填補缺失值的方法為, 將屬於同一類的物件的該屬性值的均值賦予此缺失值。√
基於熵的離散化方法是常用的有監督的離散化方法。√
將資料分為n個等頻的箱中,可以⽤箱均值、箱中位數或箱邊界光滑資料。√
在主成分分析中,每個主成分都是原始變數的線性組合,且各個主成分之間互不相關。√
等距離分箱可能導致屬於某些區間的取值非常多,而某些區間的取值又非常少。等頻則能夠解決此問題。
使用主成分分析法進行資料屬性特徵提取中,每個新的特徵是原有特徵的線性組合。
2018 03 22 第三章 資料預處理
資料要滿足應用需求,必須是高質量的。高質量是指 準確性 完整性 一致性 時效性 可信性和可解釋性。3.1.2 資料預處理的主要任務?資料預處理的主要步驟是 不互斥 資料清理 資料整合 資料規約和資料變換。3.2 資料清理 現實世界的資料一般是不完整的 有雜訊的和不一致的 資料清理例程試圖填充缺失的值...
資料探勘 (三) 資料預處理
1 準確性 2 完整性 3 一致性 4 時效性 5 可信性 反映有多少資料是使用者信賴的 6 可解釋性 反映資料是否容易理解 改進資料質量,有助於提高其後的挖掘過程的準確率和效率,是知識發現過程的重要步驟 1 資料清理 資料清理例程通過填寫缺失的值,光滑雜訊資料,識別或刪除離群點,並解決糾正資料中的...
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...