大資料服務的資料來源不但來自歸屬於不同行業的組織之中,而且其型別還具有多樣性(variety)特徵。
多樣性指的是大資料服務不僅包括例如姓名、年齡這樣的結構化資料,還包括歌曲、電影這樣的非結構化資料,此外網頁、郵件這樣的資料介於結構化和非結構化之間,屬於半結構化資料,也是大資料服務的重要資料來源。
結構化資料**於業務需求,系統分析員將需求中靜態的「名詞」提取出來並進行抽象,作為資料庫表結構設計的依據。比如我們設計乙個學籍管理系統,通過分析發現「張三」、「李四」等學生具有姓名、年齡、所屬院系、所選課程、課程分數等屬性,於是系統分析員將這些屬性選取出來並設計乙個「學生」類,那麼「學生」表結構就相當於乙個模板,可以將「張三」、「李四」等學生的姓名、年齡、班級等結構化資料儲存到資料表中。由於資料表是二維的,借助關係型資料庫的sql語言,可以從多個維度對結構化資料進行查詢統計。
非結構化資料可以以多**的形式存在,生動形象地反饋資訊,因此我們可以從非結構化資料中採集有價值的資訊,並將這些採集的新增轉化為結構化資料,通過對非結構化資料的「理解」來發現其中隱藏的價值。
介於結構化資料和非結構化資料之間的是半結構化資料。半結構化資料的結構和內容混合在一起,例如電子郵件、網頁等。從半結構化資料中同樣可以抽取出許多有價值的資料,比如電子郵件中可以採集到發件人、收件人、標題等,通過對郵件的收發位址、頻率、主題等進行分析,可以形成以電子郵件為通訊媒介的社交網路。
企業可以根據應用的要求、資料的規模、資料的型別等維度進行分析和設計,選擇不同的儲存架構。
對於資料規模大、資料結構簡單、對查詢效率要求高的應用,可以採用hadoop/hbase這樣的分布式儲存架構。由於hadoop/hbase儲存架構採用鍵值儲存結構,具有良好的可擴充套件性,因此可以通過增加基礎設施資源來提高查詢效率,系統整體效能隨著集群規模的增大而線性增長。
對於需要關聯多個資料模型才能實現的分析型應用,則可以考慮採用關係型資料庫作為儲存庫。對於以郵件、文件、錄音、錄影等檔案形式存在的非結構化資料,可以採用nas(network attached storage,網路連線式儲存)儲存架構,對於訪問頻率高、單次訪問資料量小的結構化資料,具有明確資料型別和資料長度,可以考慮採用san(storage area network,儲存區域網路)儲存架構。
對於以檔案為訪問單位的非結構化資料,則適合採用nas(network attached storage,網路連線式儲存)儲存架構。通常情況下,儲存架構採用san和nas混合的形式。
san和nas屬於「主機+磁碟陣列」的系統架構,在大資料時代,隨著資料量的不斷增加,企業越來越採用「單機+硬碟」組成的系統架構。這種架構適合於需要批量資料處理的分析型應用,並且對單個應用裝置的能力要求不高,可以有效地利舊低端裝置,可以快速地實現橫向資源擴充套件。
大資料儲存
主流資料庫 1 mysql 以前是sun公司的產品,後被甲骨文公司收購,開源 2 oracel 成本較高,100w左右 3 db2 成本較高,100w左右 4 nosql 非關係性資料庫,基本都是key value結構 很多門戶 都使用mysql,例如 雅虎,資料庫的主從備份,是處於負載均衡範疇。資...
資料化運營之會員資料化運營
會員資料化運營主要用來解決以下方面問題 1 會員生命週期狀態 2 會員核心訴求 3 會員價值如何 4 會員轉換習慣與路勁 5 如何擴大市場覆蓋 獲取更多會員 6 如何維繫老會員 7 應該在什麼時間 採取什麼措施 針對那些會員做那些活動 8 在特定運營目標下,應該如何指定會員管理措施 會員資料化運營關...
蘇寧大資料怎麼運營 怎麼選擇運營商大資料,是否合法
運營商大資料都支援哪些運營商。運營商大資料抓取的原理是什麼。最近有很多人問運營商大資料是合法的嗎 首先,運營商大資料是合法的,合法的第三方公司都是與運營商簽訂合同的,同時,抓取的資料是加密的,看不到號碼的。比如155 這種的。運營商大資料的 正常都是差不多的,不過有一部分第三方公司,為了利潤,將明碼...