大資料分析及處理

2021-06-21 06:04:51 字數 2736 閱讀 2812

從所周知,大資料已經不簡簡單單是資料大的事實了,而最重要的現實是對大資料進行分析,只有通過分析才能獲取很多智慧型的,深入的,有價值的資訊。那麼越來越多的應用涉及到大資料,而這些大資料的屬性,包括數量,速度,多樣性等等都是呈現了大資料不斷增長的複雜性,所以大資料的分析方法在大資料領域就顯得尤為重要,可以說是決定最終資訊是否有價值的決定性因素。基於如此的認識,大資料分析普遍存在的方法理論有哪些呢?

1. 視覺化分析。大資料分析的使用者有大資料分析專家,同時還有普通使用者,但是他們二者對於大資料分析最基本的要求就是視覺化分析,因為視覺化分析能夠直觀的呈現大資料特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明瞭。

2. 資料探勘演算法。大資料分析的理論核心就是資料探勘演算法,各種資料探勘的演算法基於不同的資料型別和格式才能更加科學的呈現出資料本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入資料內部,挖掘出公認的價值。另外乙個方面也是因為有這些資料探勘的演算法才能更快速的處理大資料,如果乙個演算法得花上好幾年才能得出結論,那大資料的價值也就無從說起了。

3. **性分析。大資料分析最終要的應用領域之一就是**性分析,從大資料中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的資料,從而**未來的資料。

4. 語義引擎。非結構化資料的多元化給資料分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉資料。語義引擎需要設計到有足夠的人工智慧以足以從資料中主動地提取資訊。

5.資料質量和資料管理。大資料分析離不開資料質量和資料管理,高質量的資料和有效的資料管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。

大資料分析的基礎就是以上五個方面,當然更加深入大資料分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大資料分析方法。

資料採集:etl工具負責將分布的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。

資料訪問:關聯式資料庫、nosql、sql等。

基礎架構:雲儲存、分布式檔案儲存等。

資料處理:自然語言處理(nlp,natural language processing)是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理解(nlu,natural language understanding),也稱為計算語言學(computational linguistics。一方面它是語言資訊處理的乙個分支,另一方面它是人工智慧(ai, artificial intelligence)的核心課題之一。

統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸**與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。

模型**:**模型、機器學習、建模**。

結果呈現:雲計算、標籤雲、關係圖等。

1. 大資料處理之一:採集

在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票**和**,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

2. 大資料處理之二:匯入/預處理

雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這些來自前端的資料匯入到乙個集中的大型分布式資料庫,或者分布式儲存集群,並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使用來自twitter的storm來對資料進行流式計算,來滿足部分業務的實時計算需求。

匯入與預處理過程的特點和挑戰主要是匯入的資料量大,每秒鐘的匯入量經常會達到百兆,甚至千兆級別。

3. 大資料處理之三:統計/分析

統計與分析主要利用分布式資料庫,或者分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到emc的greenplum、oracle的exadata,以及基於mysql的列式儲存infobright等,而一些批處理,或者基於半結構化資料的需求可以使用hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是i/o會有極大的占用。

4. 大資料處理之四:挖掘

與前面統計和分析過程不同的是,資料探勘一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到**(predict)的效果,從而實現一些高階別資料分析的需求。比較典型演算法有用於聚類的kmeans、用於統計學習的svm和用於分類的*****bayes,主要使用的工具有hadoop的mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,常用資料探勘演算法都以單執行緒為主。

整個大資料處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是乙個比較完整的大資料處理。

如何進行大資料分析及處理?

1.視覺化分析 大資料分析的使用者有大資料分析專家,同時還有普通使用者,但是他們二者對於大資料分析最基本的要求就是視覺化分析,因為視覺化分析能夠直觀的呈現大資料特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明瞭。2.資料探勘演算法 大資料分析的理論核心就是資料探勘演算法,各種資料探勘的演...

大資料分析的處理流程

大資料的處理流程可以定義為 利用適當的工具,提取和整合不同結構的資料來源,並按照一定的標準進行儲存,然後採用適當的資料分析技術進行分析,最後提取有用的知識,並將結果顯示給使用者以適當的方式在終端的前面。1.資料汲取與整合 由於大資料處理的資料 型別廣泛,而其第 一步是對資料進行抽取和整合,從中找出關...

大資料分析步驟及分析方法詳解

1 識別目標需求 首先必須明確資料分析的目標需求,從而為資料的收集和分析提供清晰的方向,該步驟是資料分析有效性的首要條件。2 採集資料3 資料預處理 對資料進行必要的預處理,常用的資料預處理方法包括 資料整合 資料清洗 資料去冗餘。4 資料探勘 資料探勘的目的是在現有資料基礎之上利用各類有效的演算法...