rdd是乙個彈性可復原的分布式資料集!
rdd是乙個邏輯概念,乙個rdd中有多個分割槽,乙個分割槽在executor節點上執行時,他就是乙個迭代器。
乙個rdd有多個分割槽,乙個分割槽肯定在一台機器上,但是一台機器可以有多個分割槽,我們要操作的是分布在多台機器上的資料,而rdd相當於是乙個**,對rdd進行操作其實就是對分割槽進行操作,就是對每一台機器上的迭代器進行操作,因為迭代器引用著我們要操作的資料!
rdd是由多個分割槽組成的集合
每個分割槽上會有乙個函式作用在上面,實現分割槽的轉換
rdd與rdd之間存在依賴關係,實現高容錯性
如果rdd裡面裝的是(k-v)型別的,有分割槽器
如果從hdfs這種檔案系統中建立rdd,會有最佳位置,是為了資料本地化
Spark中RDD是什麼?
一 rdd是什麼?rdd是乙個彈性可復原的分布式資料集!rdd是乙個邏輯概念,乙個rdd中有多個分割槽,乙個分割槽在executor節點上執行時,他就是乙個迭代器。乙個rdd有多個分割槽,乙個分割槽肯定在一台機器上,但是一台機器可以有多個分割槽,我們要操作的是分布在多台機器上的資料,而rdd相當於是...
Spark技術內幕 究竟什麼是RDD
rdd是spark最基本,也是最根本的資料抽象。是關於rdd的 如果覺得英文閱讀太費時間,可以看這篇譯文 本文也是基於這篇 和原始碼,分析rdd的實現。第乙個問題,rdd是什麼?resilient distributed datasets rdd,彈性分布式資料集。rdd是唯讀的 分割槽記錄的集合。...
對spark中RDD的理解
update at 2016.1.25 rdd作者的 鏈結 的理解 spark要解決的問題 1 有些資料要多次讀寫,磁碟速度很慢 2 沒有互動的介面,不能看到中間結果 適用的應用 1 機器學習 多個迭代次運算,逼近 優化問題 是不是三維重建中優化也可以用到這個 2 計算結果還要用的 pagerank...