Spark Core 子模組 Shuffle 分析

2021-09-05 09:32:16 字數 788 閱讀 8593

一、前言

1. 相關版本:spark master branch(2018.10, compiled-version spark-2.5.0, 相關的測試設定了spark.shuffle.sort.bypassmergethreshold   1  和 yarn-client 模式) ,hibench-6.0 and hadoop-2.7.1

2. 建議先了解spark 的 rdd、dag、memory 的基本概念。

二、 spark core 子模組 shuffle

shuffle是效能相關的乙個重要環節,而spark在shuffle上演進了好幾個版本,到v2.4有乙個不錯的效能 。

1. shuffle writer 和 shuffle reader overview

2. unsafeshufflewriter和sortshufflewriter的詳細對比

3. 基於resulttask看shuffleread

git submodule 子模組使用

當我們的git專案需要引入第三方專案 另外乙個git專案 時,可以用submodule。git submodule add third party hiredis third party hiredis 是自定義路徑 hiredis必須不存在。新增成功之後可以看到 third party hired...

Git submodule Git子模組簡介

建立倉庫 1.1 建立主倉庫 1.2 建立子倉庫 提交內容 2.1 提交到主工程的倉庫 2.2 提交到子模組的倉庫 轉殖帶子模組的倉庫到本地 更新子倉庫 總結參考文件 軟體開發中有乙個dry don t repeat yourself 原則,或者說die duplication is evil 原則...

Git工具 子模組

在專案上工作時,如果需要在其中引用另外乙個專案 第三方庫或者其他 可以通過子模組來處理這個問題。子模組允許將乙個git倉庫作為另外乙個git倉庫的子目錄.拉取 git submodule add git web path filename 會生成乙個.gitmodules配置檔案,這個檔案記錄了子專...