大資料資料分析技術,一般分為聯機分析處理(olap,onlineanalyticalprocessing)和資料探勘(datamining)兩大類。
olap技術,一般基於使用者的一系列假設,在多維資料集上進行互動式的資料集查詢、關聯等操作(一般使用sql語句)來驗證這些假設,代表了演繹推理的思想方法。
資料探勘技術,一般是在海量資料中主動尋找模型,自動發展隱藏在資料中的模式(pattern),代表了歸納的思想方法。
傳統的資料探勘演算法主要有:
(1)聚類,又稱群分析,是研究(樣品或指標)分類問題的一種統計分析方法,針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。企業通過使用聚類分析演算法可以進行客戶分群,在不明確客戶群行為特徵的情況下對客戶資料從不同維度進行分群,再對分群客戶進行特徵提取和分析,從而抓住客戶特點推薦相應的產品和服務。
(2)分類,類似於聚類,但是目的不同,分類可以使用聚類預先生成的模型,也可以通過經驗資料找出一組資料物件的共同點,將資料劃分成不同的類,其目的是通過分類模型將資料項對映到某個給定的類別中,代表演算法是cart(分類與回歸樹)。企業可以將使用者、產品、服務等各業務資料進行分類,構建分類模型,再對新的資料進行**分析,使之歸於已有類中。分類演算法比較成熟,分類準確率也比較高,對於客戶的精準定位、營銷和服務有著非常好的**能力,幫助企業進行決策。
(3)回歸,反映了資料的屬性值的特徵,通過函式表達資料對映的關係來發現屬性值之間的一覽關係。它可以應用到對資料序列的**和相關關係的研究中。企業可以利用回歸模型對市場銷售情況進行分析和**,及時作出對應策略調整。在風險防範、反欺詐等方面也可以通過回歸模型進行預警。
傳統的資料方法,不管是傳統的olap技術還是資料探勘技術,都難以應付大資料的挑戰。首先是執行效率低。傳統資料探勘技術都是基於集中式的底層軟體架構開發,難以並行化,因而在處理tb級以上資料的效率低。其次是資料分析精度難以隨著資料量提公升而得到改進,特別是難以應對非結構化資料。
目前來看,以深度神經網路等新興技術為代表的大資料分析技術已經得到一定發展。
神經網路是一種先進的人工智慧技術,具有自身自行處理、分布儲存和高度容錯等特性,非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料,十分適合解決大資料探勘的問題。
典型的神經網路模型主要分為三大類:第一類是以用於分類**和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以art模型為代表。不過,雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。
隨著網際網路與傳統行業融合程度日益加深,對於web資料的挖掘和分析成為了需求分析和市場**的重要段。web資料探勘是一項綜合性的技術,可以從文件結構和使用集合中發現隱藏的輸入到輸出的對映過程。
目前研究和應用比較多的是pagerank演算法。pagerank是google演算法的重要內容,於2023年9月被授予美國專利,以google創始人之一拉里·佩奇(larrypage)命名。pagerank根據**的外部鏈結和內部鏈結的數量和質量衡量**的價值。這個概念的靈感,來自於學術研究中的這樣一種現象,即一篇**的被引述的頻度越多,一般會判斷這篇**的權威性和質量越高。
需要指出的是,資料探勘與分析的行業與企業特點強,除了一些最基本的資料分析工具外,目前還缺少針對性的、一般化的建模與分析工具。各個行業與企業需要根據自身業務構建特定資料模型。資料分析模型構建的能力強弱,成為不同企業在大資料競爭中取勝的關鍵。
人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:
1.大資料分析,主要有哪些核心技術?
2.構建乙個企業的大資料分析平台 ,主要分為哪幾步?
3.資料科學,資料分析和機器學習之間,有什麼本質區別?
多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**
大資料分析技術與應用
cda資料分析研究院原創作品 一 大資料概念 大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。二 大資料的特點 1 volume 大量 截至目前,人類生產的...
神經網路與深度學習 三 CPP神經網路庫
簡單的介紹 1.總體上的架構是,將全連線層,輸出層進行封裝,同時引入了connector的資料結構,用於連線兩層,使用了模板的專用化技術,可以連線特定型別的兩層,其中,在bp神經網路中,後一層要向connector提交閾值的修改權 指標 在反向傳播時還要提交反響傳播因子,前一層通過connector...
神經網路與深度學習筆記 3 2神經網路表示
隱藏層 訓練集中可以看到輸入輸出值,但看不到隱藏層值。將輸入輸出用a表示也可以,a表示啟用的意思,意味著網路不同層的值會傳遞給後一層。上述神經網路雖然包含輸入層 隱藏層 輸出層三層,但在文獻中我們稱之為雙層神經網路,其中隱藏層是第一層,輸出層是第二層。隱藏層 輸出層是有引數的,隱藏層有兩個引數w 1...