volume
大量的。大資料中資料的採集、儲存和計算的量都非常大。那麼大資料究竟要多大呢?正常的計算機處理4g資料需要4分鐘的時間,處理1tb需要3個小時的時間,而達到1pb的資料需要4個月零3天的時間,起始計量單位只有達到pb的資料才可以被稱之為大資料。
velocity
高速,什麼又稱之為高速?就上面的例子而言就處理1pb的資料不到1秒就可以實現,這就是高速,為什麼要有高速,是因為資料也是有乙個時效性的,超過了某段時間後,資料就會失去其作用和價值。資料增長速度快,因此處理速度也要快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法盡可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。
通過社交**分析來提高運營效率和銷售收入看起來非常誘人,但沃爾瑪要完全完成這點還面臨一大考驗:社交網路中資訊產生的資料流速度很快,也就是通常說的「快資料」,用傳統的技術手段無法對「快資料」進行有效的分析。如今社交**是增長最快的的大資料來源,像微博、twitter這類的社交**產生的不僅是「大資料」還是「快資料」,具有很強的時效性。而為了解決這個難題,沃爾瑪實驗室開發出了特別的解決方案和技術,通過大規模的伺服器集群對「快資料」流進行極其高速的處理。現在沃爾瑪每天能處理數以十億計的社交**更新資訊。
variety
就如前面所說沃爾瑪也十分重視從twitter、facebook等社交**獲取資料。並且在進入web2.0時代後,相較於以往web1.0使用者被動地接受資訊,現在主動權掌握在了使用者手中,使用者可以上傳、分享自己的原創資訊。**和使用者有了很好的互動。這也使得這些年來,網路資料量呈現出了**式的增長。但是也是因為這些技術和思想的進步和發展使大資料涵蓋了更多涉及方方面面的內容,豐富了大資料對資料的採集和獲取的方式。
value
就是獲取有價值的資料。如果用石油行業來模擬大資料分析,那麼在網際網路金融領域甚至整個網際網路行業中,最重要的並不是如何煉油,而是如何獲得優質**。最重要的就是挖掘更多有價值的資訊。因為大資料中資料價值密度相對較低,可以說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。
而沃爾瑪很出色地對資料進行了挖掘和利用。沃爾瑪每天有超過40pb的資料可供分析,在如此龐大的資料集中,有用價值的密度其實是很低的。但是沃爾瑪運用一切技術提取資訊,為企業在決策前將成本降到最低,並創造新的消費機會。
有天,小明不想出門購物了。於是他開啟沃爾瑪的網上商場,cookie自動登入並顯示自己上次登入的時間。在小明的購物首頁推薦上有會員八折優惠的某款網球拍,還有一款全鋼**的西門子榨汁機。小明會心一笑:鄰居王叔叔昨天在twitter上抱怨自家的榨汁機真差勁時,小明順手點了個贊。沒想到沃爾瑪就都知道了!隨後小明又注意到自己在facebook上唯一關注的某**人的新**已經發行售賣,這讓小明很是心動。另外,自家附近的一家健身房的年卡正在打折**,小明摸了摸肚子上的贅肉發出一聲嘆息,心想:沃爾瑪你tm怎麼知道這麼多!
從這個小例子看出,通過大資料對資料的挖掘和利用,沃爾瑪為自己的使用者帶來便利和個性化的使用者體驗,也為自己的運營帶來了可觀的銷售增量。
veracity
就是真實性。大資料中的內容是與真實世界中的發生息息相關的,要保證資料的準確性和可信賴度。研究大資料就是從龐大的網路資料中提取出能夠解釋和**現實事件的過程。
其實這部分也在上面value的部分已經有所體現。通過大資料的分析處理,最後能夠解釋結果和**未來。但是前提是提取的資料要足夠的準確性。沃爾瑪通過大資料獲取並分析使用者提供的資訊,可以知道使用者獨特的需求和喜好,並能夠**出使用者下一步動作,並在使用者行動前向使用者推送資訊。
大資料最重要的乙個「V」是什麼?
以前,處理 大資料 僅限於那些本身具備昂貴的高效能計算集群的使用者,現在,硬體發展日新月異,可以勝任大量實時分析計算的消費級硬體比比皆是,並且有大量的開放資料庫供公眾使用,因此 資料分析 以前所未有的速度進步著。但大資料的快速發展也帶來乙個全民思考的問題 如何理解大資料?如何將大資料用於解決現實世界...
大資料有4V的特徵,是什麼意思?
大資料的4v,就是 容量大volume 多樣性variety 價值高value 速度快velocity 以海洋為例 a.海洋中水的量非常大 b.海水是多樣的,太平洋的海水和大西洋的海水是有區別的,不同地方海水裡面蘊含的物質 生活的物種都有不同 c.海洋為全人類帶來的好處太多了,人們利用海洋,開發海洋...
大資料的特點 5個V
大資料特點 6個v volume 巨大的資料量 集中儲存 集中計算已經無法處理巨大的資料量。資料量呈指數增長 錄井 石油鑽塔的感測器乙個月產生的資料量比全球所有的電影加在一起還要多。variety 非結構化資料多樣性 velocity 資料增長速度快 使用者基數龐大 裝置數量眾多 實時海量 資料指數...