一、選題與意義
1.hadoop平台應用
2.kaggle分析資料專案
簡要說明理由與意義。
答:選擇kaggle分析資料專案
專案:房價**(house prices)
理由與意義:由於第一題hadoop環境搭建困難重重,加上硬體裝置需要500g+8g以上,故選擇第二題。選擇房價**的目的是房價這方面是跟我們生活比較符合,有很高的專案價值。
二、實踐方案
簡要說明理由。
答:使用annconda環境進行編碼
三、實踐任務分解
根據所選的題目,明確實驗步驟,分解任務到每天。
第一、二天(6.23,6.24):
資料匯入與預處理:
模組匯入
資料匯入
特徵處理
異常處理等
第三、四天(6,24-6,25):
特徵處理:
資料集連線
缺失資料分析
資料相關性
重新劃分資料集等
第五------八天(6.26-6.30):
建模:交叉驗證
建立基礎模型
模型訓練與測試:
定義評估模型
模型訓練、**、評估
生成結果檔案
第九天(7.1):
2、完成課程實踐報告
四、實踐計畫
按任務分解撰寫計畫表,每天按計畫表開展工作。
第天根據實際情況更新計畫表,有必要時調整。
1.大資料平台安裝軟體:
虛擬機器映象檔案:
2.說明:
weka應用技術與實踐(1)
weka介紹 導言weka 1.1大資料簡介 1.1.1大資料的概念和意義 1.從資料到大資料 三個標誌性事件 08年 自然 首次提出 大資料 概念 11年 科學 首次分析了大資料對人們生活造成的影響,詳細描述了人類面臨的 資料困境 11年麥肯錫研究院發布報告,第一次給大資料做出相對清晰的定義 大資...
大資料應用技術學習日誌
一.學習內容 這是學期第一堂課,對本學期的大資料應用進行了簡介,主要是說明了大資料的概念,並列舉了一些例項。大資料 big data 我們用常規額工具是不好統計的,或者說我們在一定的時間範圍內是處理不了的,它是龐大的,海量的一種資料集合。同事它也是一種有用的資訊資產,它很多樣化。我們知道的比如說 的...
大資料技術與應用 Redis
1.基礎知識 redis是用c語言開發的乙個開源的高效能鍵值對 key value 資料庫。它通過提供多種鍵值資料型別來適應不同場景下的儲存需求,目前為止redis支援的鍵值資料型別如下字串 列表 lists 集合 sets 有序集合 sorts sets 雜湊表 hashs wget步驟如下 將r...