大資料演算法 大資料演算法概述

2021-06-27 01:10:11 字數 1289 閱讀 5752

大資料——當下人人津津樂道的話題。然而對於大資料的公認定義以及完美體系還沒有完全誕生,但大街小巷已遍布雲計算、大資料,這些領域的經典案例更是層出不窮。由於認知的有限,就不繼續發表拙見了。只是因為很喜歡演算法和dm,加上最近在mooc上學習一門hit的《大資料演算法》課程,收穫很多特記錄於此,也推薦一下mooc的學習資源和學習平台。雖然開始演算法的旅程太短,但它的神奇魔力深深吸引了我。在網際網路時代發揮巨大而神奇作用的演算法,在即將到來的大資料時代又該如何適應,以何種方式體現?成為了我探尋的最大樂趣。

大資料演算法定義:在給定的資源約束下,以大資料為輸入,在給定的時間約束內可以生成滿足給定約束結果的演算法。

當然關於大資料的定義也有很多,但目前還未完全統一。不管是哪一種定義關鍵在於自己能夠真正去理解的,才是好的定義。

大資料的應用

1.**:時間序列等;

2.推薦:協同過濾等;

3.商業情報分析:機器學習等;

4.科學研究:機器學習,高可擴充套件、非線性時間演算法等。

大資料應用直接度娘就遍地都是了,這裡就不贅述了。

大資料特點(4v):

ø  variety:多樣性、複雜性;

ø  velocity:速度;

ø  volume:資料量;

ø  value:基於高度分析的新價值。

特點應該是耳熟能詳了,這裡只是提一下這門課程中的在於velocity和volume上的。

大資料演算法概述:

ø時間亞線性演算法:訪問全部資料時間過長。可採取讀取部分資料或者預處理等方式。

ø空間亞線性演算法:資料難於放入記憶體進行計算,則可採取僅基於少量資料進行計算。

ø外存演算法:資料難於放入記憶體計算,也可採取將資料儲存在磁碟上,再進行呼叫計算。

ø並行演算法:單個計算機難以儲存全部資料,計算需要整體資料。則可以採用平行計算。

ø眾包演算法:計算機能力不足或知識不足,此時可以採取「人多勢眾」的策略來解決。

這是這門課程的演算法主要概述了,比較全面也比較實用。可以從裡面學到很多不一樣的演算法思想,以及演算法的應用的。目前這部分算是沒有到發展瓶頸的,很有發展潛力的哦。

大資料的演算法分析:時間空間複雜性、io複雜性、結果質量(近似比、competitive ratio等)、通訊複雜性等,更加全面和更多的因素分析了。

大資料演算法 亞線性演算法概述

中國大學生mooc 王巨集志老師大資料演算法 聽課筆記 亞線性水庫抽樣是一種經典的亞線性空間演算法。問題背景 有時候我們需要在海量資料中進行均勻的抽樣,但是由於海量資料無法進行儲存,所以我們只能讓它從我們面前流過一次。問題描述 輸入 一組資料,其大小未知 輸出 這組資料的k個均勻抽樣 要求 僅掃瞄資...

大資料演算法

第1章 大資料演算法概述 大資料的定義與特點 大資料演算法 大資料演算法設計與分析 第2章 亞線性演算法概述 亞線性演算法的定義 水庫抽樣 空間亞線性演算法 平面圖直徑 時間亞線性計算演算法 全0陣列判定 時間亞線性判定演算法 第3章 亞線性演算法例析 資料流中頻繁元素 最小生成樹 序列有序的判定 ...

大資料概述

1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...