開源大資料週刊 第52期

2021-09-23 16:39:48 字數 1008 閱讀 3764

機器學習是人工智慧(ai)的精髓。雖然這個概念已經可存在五十多年了,但是,最近才開始應用於工業。根據麥肯錫全球研究所(mgi)的報告,在德國,62%的工作崗位已經有至少30%的工作實現了自動化,與美國的水平相當。基於自然語言處理或視覺物件識別等等技術的ai實現這種自動化的核心推動者。

本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。

還記得筆者在上篇文章無意中挖的乙個坑麼?如若不知,強烈建議看官先行閱讀前面兩文-《sparksql – 有必要坐下來聊聊join》和《bigdata – join中竟然也有謂詞下推!?》。第一篇文章主要分析了大資料領域join的三種基礎演算法以及各自的適用場景,第二篇文章在第一篇的基礎上進一步深入,討論了join基礎演算法的一種優化方案 – runtime filter,文章最後還引申地聊了聊謂詞下推技術。同時,在第二篇文章開頭,筆者引出了兩個問題,sql執行引擎如何知曉參與join的兩波資料集大小?衡量兩波資料集大小的是物理大小還是紀錄多少抑或兩者都有?這關係到sql解析器如何正確選擇join演算法的問題。好了,這些就是這篇文章要為大家帶來的議題-基於代價優化(cost-based optimization,簡稱cbo)。

我們都知道,hdfs設計是用來儲存海量資料的,特別適合儲存tb、pb量級別的資料。但是隨著時間的推移,hdfs上可能會存在大量的小檔案,這裡說的小檔案指的是檔案大小遠遠小於乙個hdfs塊(128mb)的大小;hdfs上存在大量的小檔案至少會產生以下影響:消耗namenode大量的記憶體延長mapreduce作業的總執行時間。

無監督學習是深度學習的聖杯。它的目的是希望能夠用極少量且不需要標註的資料訓練通用系統。本文將從無監督學習的基本概念開始再進一步簡述無監督學習的各個基礎演算法及其優缺點。本文作者為專注機械人與視覺研究的 e-lab 的研究者 eugenio culurciello。

阿里雲e-mapreduce團隊出品

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊 第29期

摘要 阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本 增加預定制配置,如試用型 入門型 計算型 記憶體型等 增加包年包月自動續費功能 1.6.0版本 互動式查詢 支援hive spark 資訊 cio時代學院院長姚樂 大資料的行業應用策略 關於大資...

開源大資料週刊 第18期

摘要 本週關注 hadoop集群的規劃 大資料的 位置資料 電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本 已經發布 1.5.0版本 正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...