在傳統的資料倉儲下,基本上都是以為資料的完全擁有與完全儲存為己任,進而在上面進行相應的資料操作與資料處理,然而大資料時代下olap本身的功能需要因為大資料相關技術的發展而產生一些變化。個人感覺可能會產生以下幾個方向的轉換:
1、資料處理方式的變化,之前通過一種資料即可處理資料,當資料量達到一定規模時,就無法依照這種方式進行處理,需要借助於hadoop或者其他的並行處理框架進行計算,這一點可以當作是有單機或單節點向多級及集群轉換的過程;
2、資料處理過程的篩選,大資料時代不僅資料量達到一定規模,資料之間的關係也會達到一定規模,而且往往關係的規模對比資料規模會以指數級遞增,如果在此是進行資料探勘將會將簡單問題變得尤為複雜,所以此時可能考慮資料的降維與分層取樣方法;
3、資料處理的實時性,大資料時代各方面技術的不斷增強會直接提公升資料處理的速度,所以實時資料處理以及分析結果的展示可以提上日程,現在例如storm等流式處理的框架也都可以為系統的實時處理提供技術上的實現;
OLAP在大資料時代的挑戰
轉行做資料相關的工作有近兩年時間,除了具體技術,還有許多其它思考。在涉及具體的技術前,先想一想為什麼需要olap這樣的系統,它有什麼價值或者說在公司或部門這是不可取代的麼?可以帶來哪些價值,是直接變現還是間接變現。如果不能回答或回答不了,那麼就是乙個很大的問題,這其實意味著資料的質量存在問題。沒有質...
大資料時代下的遷移學習 大資料時代下的遷移學習
大資料時代下的遷移學習 遷移學習不是機器學習的乙個模型或技術,它是機器學習中的一種 設計方 還有一些其他的設方 比如說主動學習。在後續的文章中,作者將解釋如何結合主動學習與遷移學習來最優地利用現有 或者新的 資料。從廣義上說,在利用外部資訊來提高效能或泛化能力時,可以使用遷移學習來實現一些機器學習的...
大資料時代下的遷移學習 大資料時代下的遷移學習
遷移學習不是機器學習的乙個模型或技術,它是機器學習中的一種 設計方 還有一些其他的設方 比如說主動學習。在後續的文章中,作者將解釋如何結合主動學習與遷移學習來最優地利用現有 或者新的 資料。從廣義上說,在利用外部資訊來提高效能或泛化能力時,可以使用遷移學習來實現一些機器學習的應用。遷移學習的定義 遷...