weka介紹
導言weka
1.1大資料簡介
1.1.1大資料的概念和意義
1.從資料到大資料
三個標誌性事件——08年《自然》首次提出」大資料「概念/11年《科學》首次分析了大資料對人們生活造成的影響,詳細描述了人類面臨的「資料困境」/11年麥肯錫研究院發布報告,第一次給大資料做出相對清晰的定義:大資料又稱巨量資料,指的是無法在可承受的時間範圍內用常規軟體工具進行捕捉,管理和處理的資料集合,是需要新處理模式才能具有更強的決策力,洞察發現和流程優化能力來適應海量,高增長率和多樣化的資訊資產
特徵:價值高,體量大,速度快,種類多
(1)有資料可說
(2)說資料可能
風馬牛可相及
在大資料背景下,因海量無限,包羅永珍的資料存在,讓許多看似毫不相干的現象之間發生一定的關聯,使人們能夠更簡潔,更清晰地認知事物和把握局勢。大資料的巨大潛能與作用現在難以進行估量,但揭示事物的相關關係無疑是其真正的價值所在
經典案例
(1)啤酒與尿布(2)谷歌與流感
1.1.2大資料的**
來自「大人群」泛網際網路資料
來自大量感測器的機器資料
科學研究及行業多結構專業資料
1.1.3大資料的技術支撐
1)儲存:儲存成本的下降
雲計算雲計算出現之後:資料儲存服務衍生出了新的商業模式,資料中心的出現降低了公司的計算和儲存成本,即可通過租用硬體裝置的方式來解決問題
2)計算:計算速度越來越高
3)智慧型:機器擁有理解資料的能力
大資料帶來的最大價值就是「智慧型」,大資料讓機器變得有智慧型,同時人工智慧進一步提公升了處理和理解資料的能力。例如:人工智慧ai siri
1.1.4大資料應用場景
零售行業,金融,醫療,教育,農業,環境行業,智慧型城市等
1.1.5大資料處理方式
1)大資料的採集(資料採集方法)
常用的資料採集方式:
1.資料抓取 2.資料匯入 3.物聯網感測裝置自動資訊採集
2)匯入/預處理(對資料的處理)
資料清理,資料整合,資料變換,資料規約
3)統計與分析
主要利用分布式資料庫,或分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總,例如使用python
4)大資料探勘
資料探勘是建立資料探勘模型的一組試探性發和計算方法,通過對提供的資料進行分析,查詢特定型別的模式和趨勢,最終形成建立模型。
1.2機器學習簡介
1.2.1機器學習概述
機器學習:計算機利用已有的資料(經驗),得出了某種模型,並利用此模型**未來的一種方法。
1.2.2機器學習的型別
1)監督學習
分類例:身高1.65公尺,體重100kg的男人肥胖嗎?
回歸例:如何**上海浦東的房價?未來**市場的走向?
2)無監督學習
聚類 降維
1.2.3
模型 (概率模型 非概率模型)
損失函式
損失函式值越小,模型效能越好。
優化演算法
模型評估
1.2.4機器學習步驟
資料蒐集——資料清洗——特徵工程——資料建模
成功的機器學習應用不是擁有最好的演算法,而是擁有最多的資料!!!
1.3weka簡介
1.3.1
1.3.2
1.4資料格式
weka所處理的資料集是乙個.arff檔案的二維表
大資料應用技術課程實踐 選題與實踐方案
一 選題與意義 1.hadoop平台應用 2.kaggle分析資料專案 簡要說明理由與意義。答 選擇kaggle分析資料專案 專案 房價 house prices 理由與意義 由於第一題hadoop環境搭建困難重重,加上硬體裝置需要500g 8g以上,故選擇第二題。選擇房價 的目的是房價這方面是跟我...
鉤子應用技術
鉤子 hook 技術,以其強大的功能,被廣泛的應用於系統監視,訊息管理。他可以在訊息到達目標視窗以前截獲訊息,並任意的處理系統訊息,達到一般應用程式無法達到的功能。本文主要從鉤子的種類,作用,應用入手,概要的介紹了鉤子技術的應用和作用。並附加乙個shell鉤子的例子和過程。讀者評分 3 評分次數 1...
java應用技術2
泛型 是一種把明確型別的工作推遲到建立物件或者呼叫方法的時候才去明確的特殊的型別。泛型玩的是引用資料型別。運用泛型的最大好處是避免了型別轉型異常。在泛型中不能用基礎資料型別如int只能用integer。泛型的安全警告 在申明時指定泛型的型別,如果沒指定就會在編譯時出現警告,但仍然可以執行,因為沒指定...