1【單選題】mapreduce適用於( d )
a、任意應用程式
b、任意可在windows servet2008上執行的程式
c、可以序列處理的應用程式
d、可以並行處理的應用程式
2【單選題】pagerank是乙個函式,它對web中的每個網頁賦予乙個實數值,它的意圖在於網頁的pagerank越高,那麼它就( d )
a、相關性越高
b、越不重要
c、相關性越低
d、越重要
3【單選題】在bigtable中( a )主要用來儲存子表資料以及一些日誌檔案
a、gfs
b、chubby
c、sstable
d、mapreduce
4【單選題】當不知道資料所帶標籤時,可以使用哪種技術促使帶同類標籤的資料與帶其他標籤的資料相分離?( b )
a、分類
b、聚類
c、關聯分析
d、隱馬爾可夫鏈
5【單選題】( d )的目的縮小資料的取值範圍,使其更適合於資料探勘演算法的需要,並且能夠得到和原始資料相同的分析結果。
a、資料清洗
b、資料整合
c、資料變換
d、資料歸約
6【單選題】單機序列處理1g,url資料需要10分鐘,hadoop平台並行處理只需要1分鐘,那麼加速比為( a )
a、10
b、20
c、30
d、40
7【多選題】資料探勘的主要功能包括概念描述、趨勢分析、孤立點分析及( abcd )等方面。
a、挖掘頻繁模式
b、分類和**
c、聚類分析
d、偏差分析
8【多選題】通過資料探勘過程所推導出的關係和摘要經常被稱為( ab )
a、模型
b、模式
c、模範
d、模具
9【多選題】資料探勘的**建模任務主要包括哪幾大類問題?( ab )
a、分類
b、回歸
c、模式發現
d、模式匹配
10【多選題】大資料分析處理在效果方面的評測方法為:( abc )
a、準確率
b、召回率
c、f值
d、丟包率
11【多選題】hadoop 集群可以執行在( abc )3個模式。
a、單機模式
b、偽分布式模式
c、完全分布式模式
d、離線模式
12【多選題】大資料處理的5v特點分別是( abcd )和value。
a、volume
b、velocity
c、variety
d、veracity
13【多選題】資料中的知識發現由以下步驟迭代序列組成是資料清理、資料整合、資料選擇和( abcd )。a、資料變換
b、資料探勘
c、模式評估
d、知識表示
14【多選題】哪些是大資料分析處理評測方法關於效率方面的量度?(abcd)
a、時間複雜度
b、空間複雜度
c、吞吐率
d、加速比
15【判斷題】資料探勘的主要任務是從資料中發現潛在的規則,從而能更好的完成描述資料、**資料等任務。正確答案:√
16【判斷題】
每個map槽就是乙個執行緒。正確答案:×
17【判斷題】
聚類是指將物理或抽象物件的集合分組成為由類似的物件組成的多個類的過程。正確答案:√
18【判斷題】
資料取樣時,除了要求抽樣時嚴把質量關外,還要求抽樣資料必須在足夠範圍內有代表性。正確答案:√
強 大資料第二講
hadoop的背景起源一 gfs google file system 一 什麼是大資料,本質?1 資料的儲存 分布式檔案系統 分布式儲存 hdfs hadoop distributed file system 2 資料的計算 分布式計算 二 如何解決大資料的儲存?分布式檔案系統 hdfs,於gfs...
機器學習與資料探勘 第二講 機器學習分類與可能性
目前多按照資料標記分類 二元分類 多元分類 離散為分類 回歸分析 連續為回歸 結構化學習 監督 非監督半監督 增強學習 反饋是關鍵 batch 填鴨式 online 老師教學 active 主動問題 重點關注 未知資料的能力,即泛化能力的本質 hoeffding s inequality p 2ex...
資料探勘實戰之金融風控第二課 探索性資料分析
1 讀取檔案 data pd.read csv data.shape檢視檔案的行和列 data train.columns檢視資料列名data train.info 檢視每列的基本資訊,資料型別data train.describe 檢視類別的統計特徵 data train.isnull sum l...