1.試述大資料對思維方式的重要影響。
1.全樣而非抽樣
在過去由於受到了處理能力的限制,在科學分析中,通常採用抽樣的方法對樣本資料進行分析來推斷全集資料的總體特徵。資料是要在可控制代價範圍內實現資料分析的目的。現在,我們已經迎來了大資料時代,大
資料技術的核心就是海量資料的儲存和處理,有了強大的儲存能力和處理能力,科學分析可以直接針對全集而非抽樣的方式進行分析,並且可以在短時間內迅速得到分析結果。
2.效率而非明確
過去,我們在科學分析中採用抽樣分析方法,就必須追求分析方法的精確性,可能選錯了樣本就導致了巨大的誤差,但樣本代替全集也是存在誤差的,因此,為了保證誤差被放大到全集資料時仍然處於可接受範圍,
就必須要確保資料的精確度。就因如此傳統的資料分析方法往往更加注重提高演算法的精確性,其次才是提高演算法效率。而大資料分析由於是全集資料分析,就不怕有誤差放大的問題,因此追求資料精確性已經不再是
首要的目標了;相反,大資料時代具有「秒級響應」的特徵,要求在幾秒內就迅速給出針對海量資料的實時分析結果,否則就會喪失資料的價值,因此,資料分析的效率就成為關注的核心。
3.相關而非因果
過去,資料分析的目的,一方面是解釋事物背後的發展機理,比如,乙個大型超市在某個地方的連鎖店在某個時期內淨化利潤下降很多,這就需要it部門對相關銷售資料進行詳細分析找出發發生問題的原因;另外
一方面是用於**未來可能發生的事件,比如,通過實時分析微博資料,當發現人們對霧霾的討論明顯增加時,就可以建議取消銷售部門增加口罩的進貨量,因為人們關注霧霾的乙個直接結果是,大家會想到購買一
個口罩來保、護自己的身體健康。不管是哪個目的,其實都反映了一種 「因果關係」。比如。我們去**網購物時,當我們購買了乙個汽車防盜鎖以後,**網還會自動提示你,與你購買相同物品的其他客戶還購買了
汽車坐 墊,也就是說,**網只會告訴你 「購物買汽車防盜鎖」 和 「購買汽車坐墊」 之間存在相關性,但並不會告訴你為啥其他客戶購買了汽車防盜鎖以後還會購買汽車坐墊。
2.詳細闡述大資料、雲計算、物聯網之間的區別與聯絡。
雲計算、大資料和物聯網代表了it領域最新的技術發展趨勢,三者相輔相成,既有聯絡又有區別。雲計算最初主要包含了兩類含義:一類是以谷歌的gfs 和 mapreduce 為代表的大規模分布式平行計算技術;另一類
是 以亞馬遜的虛擬機器和物件儲存為代表的 「按需租用」 的商業模式。但是,隨著大資料概念的提出,雲計算中的分布式計算技術開始更多地被列入大資料,而人們提到雲計算時,更多指的是低層基礎it資源的整合優化
以及 以服務的方式提供it資源的商業模式(如iaas、paas、saas)。從雲計算和大資料割裂開來作為截然不同的兩類技術看待。此外,物聯網也是和雲計算、大資料相伴相生的技術。
第一,大資料、雲計算和物聯網的區別。大資料側重於海量資料的儲存、處理與分析,從海量資料中發現兼職,服務於生產和生活;雲計算本質上旨在整合和優化各種it資源,並通過網路以服務的方式廉價地提供給
使用者;第二,大資料、雲計算和網際網路的聯絡。從整體上看,大資料、雲計算和物聯網這三者是相輔相成的。大資料根植於雲計算,大資料分析的很多技術都來自於雲計算,雲計算的分布式資料儲存和管理系統(包括分布
式檔案系統和分布式資料庫系統)提供了海量資料的儲存和管理能力,分布式並行處理框架 mapreduce 提供了海量資料分析能力,沒有這些雲計算技術作為支撐,大資料分析就無從談起。反之,大資料為雲計算提
供了「永無之地」,沒有大資料這個「練兵場」,雲計算技術再先進,也不能發揮它的應用價值。物聯網的感測器源源不斷產生的大量資料,構成了大資料的重要資料**,沒有物聯網的飛速發展,就不會帶來資料產生方
式的變革,即由於人工產生階段轉向自動產生階段,大資料時代也不會這麼快就到來。同時,物聯網需要借助雲計算和大資料技術,實現物聯網大資料的儲存、分析和處理。
總結,雲計算、大資料和物聯網三者已經彼此滲透、相互融合,在很多應用場合都可以同時看到三者的身影。在未來,三者會繼續相互促進、相互影響,更好地服務於社會生產和生活的各個領域中。
3.簡述你對大資料應用與發展的看法,以及你在這次大資料浪潮中想扮演什麼角色。
大資料時代的到來,所有人或物都捲入了其浪潮中,這是資訊發展的趨勢。其中,大資料時代可以說有利也有弊,這在乎於在和人中使用,這和別的事物、理論等大同小異,所以我們需要將其的利放大化,縮小其
弊。談及到大資料,可以用四個層面來概括:1.資料量大 2.資料型別繁多 3.處理速度快 4.價值密度低。那麼說這四個層面有何用呢,那當然是這四個層面決定了大資料本身的應用與發展了。首先資料量大意味著它可
以處理和儲存大量的資料,便於對資料全面的分析,可以應用於科學研究,再且,資料型別繁多,證明它是個「萬金油」,各行各業都可以運用,使用的範圍廣泛,也就是說其利用價值高,必定會有更好的人員去研究
和發展大資料,也就會使得越來越多的應用使用大資料。處理速度快可以跟進一些需要短期做出總結的專案,例如在搜尋引擎上運用,可以有秒級響應的速度,提高使用者的體驗。最後是價值密度低,是乙個缺點,由
於大資料的技術還不是很普及,換句話說專業人員不多,而且購買相關裝置的費用昂貴,一般的中小型企業沒有資金購買,從而應用的廣泛性會降低。所以當務之急要想發展大資料應用,將其普及各行各業,必定先
讓技術變得越來越成熟,裝置的需求資金降低,相關的技術人員增多。
我想在這次大資料浪潮中扮演乙個受益者的角色,利用大資料可以幫助我知道路面的狀況,選擇最好的出行路徑,知道什麼時候預防大範圍的流行病,選取乙份比較好的工作,尋找出比較好的學校**,好的購物平
臺等等。利用大資料改變我的生活,但並不意味著所有事情都採用,在涉及一些隱私資訊時還是敬而遠之,免得熱火上身。總之大資料有利也有弊,需要看你怎麼去使用,有時候過度、過界使用它只會物極必反。
大資料概述
1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...
大資料概述
大資料 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。所謂 面向集合 collection oriented 意思是資料被分組儲存在資料集...
大資料概述
1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...