1.分析是指收集處理資料並獲取資料隱含資訊的過程。
2.型別:三個層次
① 描述性分析
② **性分析
③ 分析和規則性分析
3.資料分析方法:概述
**活動步驟
分析4.大資料分析方法的三種體系:
① 面向資料視角
② 面向流程視角
③ 面向資訊科技視角
5.必要的四大步驟
一.識別目標需求
二.採集資料
三.資料預處理
四.資料探勘:建立資料探勘模型的一組試探法和計算方法,貢過對提供的資料進行分析,查詢特定的型別模式和趨勢,最終形成建立模型。
6.技術:
統計分析
資料探勘
機器學習
視覺化分析
7.常用演算法(資料探勘):分類、聚類、回歸分類、關聯分析、特徵分析、web網頁挖掘、人工神經網路。
8.挖掘工具:hadoop mahout spark mllib storm apache drill rapidminer pentahobi
9.關聯規則是用於發現事物之間的相關聯絡。
10.演算法:k-means svm apriori em pagerank addboost knn等等。
11.應用領域:醫療保險,金融,市場業,零售業,製造商,司法,工程與科學,保險業。
第七課 熟悉字串與動態陣列
1.字串 字串是乙個字元陣列。可以用變數名 下標 來取出單個字。變數名.length 表示字串中字元的個數。字串物件一旦被建立,這個物件就不能被改變。字串變數建立和修改前,先在字串拘留池中尋找是否有相同的內容的物件,若有就直接指向,如果沒有再建立新的字串物件。字串一旦被建立,不會被gc 2.字串常用...
資料的回歸與分類分析
任務要求 線性回歸練習。父親高則兒子高,父親矮則兒子矮 即父親與兒子身高相關,且為正相關 母高高一窩,父高高乙個 即母親的身高比父親的身高對子女的影響更大 的習俗傳說是否成立?請在 父母子女身高 資料集 高爾頓資料集 基礎上利用線性回歸做出科學分析。1 選取父子身高資料為x y,用excel計算線性...
演算法與資料結構第七次作業 路飛的難題
這次的作業是關於雜湊表的,老實說hash的思想是懂了,不過不太會用。作業我是用之前陣列的方式做的。看了一下優秀 也是看懂了,不過讓我自己實現還是不行。照著優秀 敲了一下。由於選取的hash值比較奇怪,所以也沒考慮到衝突的問題,總之算是水過吧。先把 貼上來。今天要多敲幾題hash。感覺考試還是很有可能...