開源大資料週刊 第9期

2021-09-24 09:00:31 字數 1343 閱讀 2542

摘要:

雲上hadoop之挑戰

e-mapreduce團隊

1.3.2版本(已經發布):

1.3.3版本 (即將發布)

1.4版本(正在研發):

菜鳥「鬧」江湖:物流+大資料,能把廣東、江蘇gdp都節省出來?

中國物流去向何方?菜鳥網路認為,通過推動物流業向智慧型轉型,未來目標是要把中國社會物流總成本佔gdp的比重降低到5%,這將是物流新模式對社會的重大貢獻,相當於每年可以節省出廣東省和江蘇省的gdp總和

大資料,未來已來

前日,在成都的一次大資料會上,各位頂級專家都不約而同地提到了大資料還遠未成熟的觀點。我也很贊同這個觀點,大資料在今天,依然屬於前沿科學,它在很多行業和細分領域,都還很不成熟。然而,這並不代表我們還要再徘徊等待,無所作為。相反,在一些細分領域,在一些特定的「點」,我已經看到了星星之火。與我所經歷過的其他新興市場並無不同。我堅信,這些星星之火必將燎原!2016,大資料,未來已來。

世界頂尖資料科學家看未來十年大資料發展

過去,科學家經過十年的研究才首次破解人類dna。而13年後的今天,這項工作在24小時之內就能完成。

一直以來,我們都在不斷改進資料處理工具。資料數量也在過去十年間**式增長。那麼,還有創新的空間嗎?未來還會給我們新穎的啟示,還會令人瞠目嗎?在這一點上,我們無須再猜。讓我們來看看,資料科學界的頂尖大師們是如何看待未來十年大資料發展的,他們又對大資料未來如何改變世界作何猜想。

大資料與統計新思維

毫無疑問,大資料時代已經來臨,它正在悄悄地改變著人們的行為與思維,難以阻擋,無法抗拒。在電腦科學、電子商務等領域已率先在大資料技術開發與應用方面做出不俗成就的時候,以資料為研究物件的統計學該如何應對? 無動於衷還是盲目追從? 正確的態度應該是理性對待、積極跟進、改變思維、謀求發展.

雲上hadoop之挑戰

在雲上雲行hadoop,很多人擔心效能。因為一提到虛擬化就會有人想到有成本,往往得出有偏見的結論-在雲上執行肯定比物理機器上執行效能差。如果單獨把10臺物理機虛擬化跑hadoop,這肯定是有部分效能的開銷的。但是如果在公共雲上,情況就不是這樣了。因為公共雲虛擬化的開銷最終是由平台方來承擔的,其一是平台方採購機器有規模優勢,其二平台方可以在保證虛擬機器效能的情況超賣部分資源。

spark效能優化指南——高階篇

深入分析資料傾斜調優與shuffle調優,以解決更加棘手的效能問題。

sqoop-1.4.6 匯入實戰

sqoop是hadoop與其他關係型資料庫之間進行資料抽取、轉換的一座堅固的橋梁,可以在關係型資料庫以及hadoop生態系統支援的資料儲存方式(hdfs、hive、hbase)之間進行匯入和匯出操作。

apache pig 0.16.0

時隔一年,pig再此發布,這個版本支援pig on tez

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊 第29期

摘要 阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本 增加預定制配置,如試用型 入門型 計算型 記憶體型等 增加包年包月自動續費功能 1.6.0版本 互動式查詢 支援hive spark 資訊 cio時代學院院長姚樂 大資料的行業應用策略 關於大資...

開源大資料週刊 第18期

摘要 本週關注 hadoop集群的規劃 大資料的 位置資料 電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本 已經發布 1.5.0版本 正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...