大資料可以抽象的分為大資料儲存和大資料分析,這兩者的關係是:大資料儲存的目的是支撐大資料分析。到目前為止,還是兩種截然不同的計算機技術領域:大資料儲存致力於研發可以擴充套件至pb甚至eb級別的資料儲存平台;大資料分析關注在最短時間內處理大量不同型別的資料集。
比如,google大約管理著超過50萬台伺服器和100萬塊硬碟,而且google還在不斷的擴大計算能力和儲存能力,其中很多的擴充套件都是基於在廉價伺服器和普通儲存硬碟的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。
以amazon舉例,amazon s3是一種面向 internet 的儲存服務。該服務旨在讓開發人員能更輕鬆的進行網路規模計算。amazon s3提供乙個簡明的web 服務介面,使用者可通過它隨時在 web 上的任何位置儲存和檢索的任意大小的資料。此服務讓所有開發人員都能訪問同乙個具備高擴充套件性、可靠性、安全性和快速價廉的基礎設施,amazon 用它來執行其全球的**網路。再看看s3的設計指標:在特定年度內為資料元提供 99.999999999% 的耐久性和 99.99% 的可用性,並能夠承受兩個設施中的資料同時丟失。
s3很成功也確實卓有成效,s3雲的儲存物件已達到萬億級別,而且效能表現相當良好。s3雲已經擁萬億跨地域儲存物件,同時aws的物件執行請求也達到百萬的峰值數量。目前全球範圍內已經有數以十萬計的企業在通過aws執行自己的全部或者部分日常業務。這些企業使用者遍布190多個國家,幾乎世界上的每個角落都有amazon使用者的身影。
感知技術
大資料的採集和感知技術的發展是緊密聯絡的。以感測器技術,指紋識別技術,rfid技術,座標定位技術等為基礎的感知能力提公升同樣是物聯網發展的基石。全世界的工業裝置、汽車、電表上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的資料資訊。
而隨著智慧型手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置資訊被廣泛的應用外,一些新的感知手段也開始登上舞台,比如,最新的」iphone 5s」在home鍵內嵌指紋感測器,新型手機可通過呼氣直接檢測燃燒脂肪量,用於手機的嗅覺感測器面世可以監測從空氣汙染到危險的化學藥品,微軟正在研發可感知使用者當前心情智慧型手機技術,谷歌眼鏡insight新技術可通過衣著進行人物識別。
除此之外,還有很多與感知相關的大資料技術革新讓我們耳目一新:比如,牙齒感測器實時監控口腔活動及飲食狀況,嬰兒穿戴裝置可用大資料去養育寶寶,intel正研發3d筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開發新型可監控使用者心率的紡織材料,業界正在嘗試將生物測定技術引入支付領域等。
其實,這些感知被逐漸捕獲的過程就是就世界被資料化的過程,一旦世界被完全資料化了,那麼世界的本質也就是資訊了。
就像一句名言所說,「人類以前延續的是文明,現在傳承的是資訊。」
大資料的實踐
網際網路上的資料每年增長50%,每兩年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。據idc**,到2023年全球將總共擁有35zb的資料量。網際網路是大資料發展的前哨陣地,隨著web2.0時代的發展,人們似乎都習慣了將自己的生活通過網路進行資料化,方便分享以及記錄並回憶。
網際網路上的大資料很難清晰的界定分類界限,我們先看看bat的大資料:
阿里巴巴擁有交易資料和信用資料。這兩種資料更容易變現,走向大資料應用挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交資料、移動資料。如微博和高德。
在資訊科技更為發達的美國,除了行業知名的類似google,facebook外,已經湧現了很多大資料型別的公司,它們專門經營資料產品,比如:
tableau:他們的精力主要集中於將海量資料以視覺化的方式展現出來。tableau為數字**提供了乙個新的展示資料的方式。他們提供了乙個免費工具,任何人在沒有程式設計知識背景的情況下都能製造出資料專用圖表。這個軟體還能對資料進行分析,並提供有價值的建議。
qliktech:qliktech旗下的qlikview是乙個商業智慧型領域的自主服務工具,能夠應用於科學研究和藝術等領域。為了幫助開發者對這些資料進行分析,qliktech提供了對原始資料進行視覺化處理等功能的工具。
gooddata:gooddata希望幫助客戶從資料中挖掘財富。這家創業公司主要面向商業使用者和it企業高管,提供資料儲存、效能報告、資料分析等工具。
tellapart:tellapart和電商公司進行合作,他們會根據使用者的瀏覽行為等資料進行分析,通過鎖定潛在買家方式提高電商企業的收入。
datasift:datasift主要收集並分析社交網路**上的資料,並幫助品牌公司掌握突發新聞的**點,並制定有針對性的營銷方案。這家公司還和twitter有合作協議,使得自己變成了行業中為數不多可以分析早期tweet的創業公司。
datahero:公司的目標是將複雜的資料變得更加簡單明瞭,方便普通人去理解和想象。
舉了很多例子,這裡簡要歸納一下,在網際網路大資料的典型代表性包括:
1-使用者行為資料(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)
2-使用者消費資料(精準營銷、信用記錄分析、活動**、理財等)
3-使用者地理位置資料(o2o推廣,商家推薦,交友推薦等)
4-網際網路金融資料(p2p,小額貸款,支付,信用,**鏈金融等)
5-使用者社交等ugc資料(趨勢分析、流行元素分析、受歡迎程度分析、**監控分析、社會問題分析等)
強力推薦閱讀文章
大資料工程師必須了解的七大概念
雲計算和大資料未來五大趨勢
如何快速建立自己的大資料知識體系
路該怎麼走?
剛看到一篇博文 話說程式設計師的職業生涯 是ibm軟體集團大中華區總架構師寫的寇衛東寫的。其中有如下一段 總結起來,初級程式設計師和高階程式設計師時期,都屬於職業生涯發展的第一階段,我們可以稱之為 時期。這階段程式設計師的年齡在20 35歲之間,因為年輕,所以更善於學習,而且體力充沛,很多走過這個階...
路該怎麼走
路該怎麼走?很多時候,我也問自己。青春飛舞的年代已經一去不復返。叛逆已成昨日。該踏踏實實過日子了,我卻很迷茫。遠在千里之外,我無力照顧年邁的父親 生病的母親。每次想起瘦弱的母親無助的樣子,我很難過。母親是我生命中最重要的人,可是我卻連給她端茶送水的時候都沒有。父親70 歲了,為了母親,在醫院裡租了個...
路該怎麼走?
路該怎麼走?很多時候,我也問自己。青春飛舞的年代已經一去不復返。叛逆已成昨日。該踏踏實實過日子了,我卻很迷茫。遠在千里之外,我無力照顧年邁的父親 生病的母親。每次想起瘦弱的母親無助的樣子,我很難過。母親是我生命中最重要的人,可是我卻連給她端茶送水的時候都沒有。父親70歲了,為了母親,在醫院裡租了個躺...