3.大資料分析的幾個核心概念
3.1k―平均演算法
k―平均演算法是一種得到廣泛應用的基於劃分的聚類演算法。其把m個物件分為n個簇,使得每個簇內具有較高的相似度。
在應用該演算法進行資料分析時,首先應輸入包含m個物件的資料集a以及簇的數目n。從a中任意選擇n個物件作為初始簇中心並且不斷重複,隨後計算出簇中物件的均值,將每個物件分配到最相似的簇並且不斷更新簇均值,最後計算準則函式直到其不再發生變化為止。因為該演算法的複雜度大約是0(nkt),所以該演算法在處理大資料集時是相對可伸縮的和高效率的。
3.2奇異值分解
假設a是乙個m×n階矩陣,其中的元素全部屬於實數域或複數域。如此則存在乙個分解使得a=u∑v*。其中u是m×m階酉矩陣,σ是半正定m×n階對角矩陣,而v*是n×n階酉矩陣的共軛轉置矩陣。這樣的分解就稱為a的奇異值分解。
在matlab**軟體中計算奇異值分解的函式式為:[b.c.d]=svd(x)
3.3主成分分析(pca演算法)
從巨集觀上來說,主成分分析是指在研究一項變數較多的課題時,將這些變數通過線性變換而簡化為幾個重要變數的一種多元統計分析方法。而在資料分析領域,主成分分析的主要作用是對大規模的資料集進行分析與簡化。其主要體現在降低資料集的維數,同時盡可能保持資料集中的對所研究的問題最有價值的特徵。簡而言之,就是保留低階主成分,忽略高階主成分。其具體方法是通過對協方差矩陣進行特徵分解,從而得出資料的特徵向量與特徵值。主成分分析在數學上可以理解為乙個正交化的線性變換,把資料整體變換到乙個新的座標系中,使得這一資料的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。
3.4決策樹學習
從廣義上講,決策樹是一種運用**法的概率分析,即在已知各種事件發生概率的基礎上,通過構建決策樹來**期望值大於等於零的概率,同時判斷可行性的決策分析方法。
決策樹學習是資料分析領域常用的方法,其目的是構建乙個模型來**樣本的目標值。一棵決策樹的訓練就是依據乙個既定指標,將訓練資料集分為幾個子集並且在所產生的子集中不斷重複此方法的過程,直到乙個訓練子集的類標都相同時為止。決策樹主要有兩種型別:分類樹和回歸樹。其中分類樹的輸出是樣本的類標,而回歸樹輸出的是乙個實數。決策樹的優點體現在即可以處理數值型資料也可以處理類別型資料,並且適合處理大規模資料。
人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:
怎麼才能轉入大資料領域 ,成為一名合格的大資料分析師
大資料分析,主要有哪些核心技術?
如何設計企業級大資料分析平台?
多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**
資料時代,大資料分析技術的介紹
近些年,由於以社交 基於位置的服務lbs等為代表的新型資訊產生方式的湧現,以及雲計算 移動和物聯網技術的迅猛發展,無處不在的移動 無線感測器等裝置無時不刻都在產生資料,數以億計使用者的網際網路服務時時刻刻都在產生著資料互動,大資料時代已經到來。在當下,大資料炙手可熱,不管是企業還是個人都在談論或者從...
大資料分析平台的核心價值
如今,小到街邊商家,大到巨集觀國家政策,都在講大資料。不過,真正搞清楚什麼是大資料的人肯並不多。其實,大資料故名思議肯定體現在 大 上,可資料是乙個比較抽象的東西。大資料的定義 世界著名諮詢機構麥肯錫曾對 大資料 給出乙個明確的定義 大資料就是一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資...
大資料時代,如何引領資料分析新時代的企業高管?
資料和分析重新定義了人們競爭的方式。資料是乙個關鍵的企業資產,組織開始以新的方式獲利以領先競爭對手。那麼底線是什麼?利用資料推動其決策績效的組織可以比競爭對手更快的速度獲勝。大型企業的乙個令人震驚的趨勢是,組織的規模不再是產生世界級分析的競爭障礙。市場出現的乙個普遍趨勢是,大型企業在使用分析方面的競...