spark
百萬級的資料,無論側重oltp還是olap,當然就是mysql了。
過億級的資料,側重oltp可以繼續mysql,側重olap,就要分場景考慮了。
實時計算場景:強調實時性,常用於實時性要求較高的地方,可以選擇storm;
批處理計算場景:強調批處理,常用於資料探勘、分析,可以選擇hadoop;
實時查詢場景:強調查詢實時響應,常用於把db裡的資料轉化索引檔案,通過搜尋引擎來查詢,可以選擇solr/elasticsearch;
企業級ods/edw/資料集市場景:強調基於關係性資料庫的大資料實時分析,常用於業務資料整合,可以選擇greenplum;
資料庫系統一般分為兩種型別:
一種是面向前台應用的,應用比較簡單,但是重吞吐和高併發的oltp型別;
一種是重計算的,對大資料集進行統計分析的olap型別。
傳統資料庫側重交易處理,即oltp,關注的是多使用者的同時的雙向操作,在保障即時性的要求下,系統通過記憶體來處理資料的分配、讀寫等操作,存在io瓶頸。
oltp(on-line transaction processing,聯機事務處理)系統也稱為生產系統,它是事件驅動的、面向應用的,比如電子商務**的交易系統就是乙個典型的oltp系統。oltp的基本特點是:
資料在系統中產生;
基於交易的處理系統(transaction-based);
每次交易牽涉的資料量很小;
對響應時間要求非常高;
使用者數量非常龐大,主要是操作人員;
資料庫的各種操作主要基於索引進行。
分析型資料庫是以實時多維分析技術作為基礎,即側重olap,對資料進行多角度的模擬和歸納,從而得出資料中所包含的資訊和知識。
olap(on-line analytical processing,聯機分析處理)是基於資料倉儲的資訊分析處理過程,是資料倉儲的使用者介面部分。olap系統是跨部門的、面向主題的,其基本特點是:
本身不產生資料,其基礎資料**於生產系統中的運算元據(operationaldata);
基於查詢的分析系統;
複雜查詢經常使用多表聯結、全表掃瞄等,牽涉的資料量往往十分龐大;
響應時間與具體查詢有很大關係;
使用者數量相對較小,其使用者主要是業務人員與管理人員;
大資料 資料庫優化
1.保證需求功能實現的前提下,減少對資料庫的訪問次數 可以用快取儲存查詢資料,減少訪問次數 2.使用搜尋引數,儘量減少對資料庫表的訪問行數,最少化結果集。3.能夠分開的操作盡量分開處理,提高每次的響應速度 4.使用sql時,盡量把使用的索引放在選擇的首列。5.演算法的結構盡量簡單 6.在查詢時,不要...
大資料資料庫選型 NoSQL資料庫入門
大資料處理,涉及到從資料獲取到資料儲存 資料計算的諸多環節,各個環節需要解決的問題不同,相關崗位要求的技能也不同。在資料儲存階段,對資料庫選型是非常重要的一項工作。今天的大資料資料庫培訓分享,我們就來聊聊nosql資料庫入門。關於nosql資料庫,很多人剛開始學習容易誤會,事實上nosql not ...
資料庫 資料倉儲 大資料
資料庫是用來儲存資料的東西,通常表現為一種軟體系統,面向事務,以處理日常工作為主要目的。資料倉儲的基礎是資料庫,面向分析,面向主題。可以這樣理解,在處理日常工作時用資料 庫獲取的 或者說臨時儲存在資料庫中的 資料都是雜亂無章的,不利於分析,不利於挖掘 的,那麼就需要對其進行處理,比如去燥 歸類等,處...