大資料的特徵:hace 原則 (large-volume,heterogeneous,autonomous sources with distributed and decentralized control, and seeks to explorecomplex and
evolving relationships among data.) 大資料始於大容量的、多樣異構的、分布式和分散控制下的自治資料來源,旨在探索資料之間複雜的、進化的關係。
特點1: 異構、多種維度下的龐大資料
特點2:分布式和分散控制下的自治資料來源
自治意味著每個資料來源都可以生產或者採集資訊,而不用通過任何集中控制。這樣有兩種好處:每個資料來源具有所有功能而不用依賴其他資料來源『;相比集中控制來說安全性、魯棒性更高。例如,亞洲的沃爾瑪超市在季節**、熱銷產品、客戶行為等方面與北美的超市就存在本質上的差異,當地政策同樣影響批發管理過程,所以導致重組資料表示方式及本地市場資料倉儲。
特點3:複雜進化的關係
傳統的資料集中的資訊系統,聚焦於找到最優特徵值來表示每個觀察量。這類似於使用一些欄位如年齡、性別、收入、教育背景等來描述乙個人,這種表述方式將每個個體孤立開來而不考慮他的社會關係,而這恰恰是最重要的特徵之一。我們的朋友圈基於人跟人之間的共同愛好或者生物學關係形成。這種社會關係不僅體現在任何人之間日常交往的真實世界,同樣在虛擬的網路世界也非常流行。通過社會交流聯絡在一起的兩個人可能他們的特徵截然不同。在乙個動態的世界裡,用來描述個體的特徵值和用來表示我們相互聯絡的社會關係隨著時間、空間等的變幻而不斷演變。這種複雜性已經成為大資料應用的一部分,然而關鍵在於將這種分線性的、多對多的複雜資料關係考慮進去,找到大資料的有效模式。
大資料下資料探勘的挑戰:乙個智慧型學習資料庫系統要處理大資料,必要的關鍵是擴大到異常大的資料規模以及提供上述hace特點的處理方法。大資料處理框架如下圖所示。
該框架由內至外分為3層:資料分析和計算(層1)、資料安全域領域知識(層2)、大資料探勘演算法(層3).
層1的挑戰主要集中在資料的分析和計算上。由於大資料長城儲存在不同地方,資料量也不斷增大,有效的計算平台必須考慮分布式大規模資料儲存。
未完待續...
資料探勘1
資料探勘過程的方 其中比較經典的是crisp dm cross industrystandard process for data mining,跨行業資料探勘標準流程 其中一共分為6個步驟 商業理解,資料理解,資料準備,建模,評估,發布。統計學習劃分為兩種型別 有 監督學習,無監督學習 有監督學習...
資料探勘 1
資料倉儲技術包括資料清理 資料整合和聯機分析處理 olap olap是一種分析技術,具有彙總,合併和聚集功能,以及從不同的角度觀察資訊的能力。但,對於深層次的分析,如資料分類,聚類和資料隨時間變化的特徵,仍然需要其他 分析工具。儘管市場上已有許多 資料探勘系統 但是並非所有的 都能進行真正的資料探勘...
大資料 資料分析 資料探勘
在大資料領域裡,經常會看到例如資料探勘 olap 資料分析等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和差別。大講台老師通過一些大資料在高校應用的例子,來為大家說明白 資料探勘 大資料 olap 資料統計的區別。一 資料分析 資料分析是乙個大的概念,理論上任何對資料進行計算 處理從...