transgormation的運算元對key-value型別的資料有三種:
(1)輸入 與 輸出為一對一關係
mapvalue();針對key-value型別的資料並只對其中的value進行操作,不對key進行操作
(2)對單個rdd聚集
combinebykey
相當於將(v1,2 v1,1)轉為(v1,seq(1,2))的rdd
reducebykey
就是將相同的key合併,算出他們的和
對rdd進行分割槽,如果原有的rdd與現在的rdd一致則不進行分割槽;如果不一致則根據分割槽策略生成乙個新的rdd
(2)對兩個rdd聚集
cogroup
對兩個key-value的rdd,每個rdd相同的key的元素合併為乙個集合,並且返回兩個rdd中對應key元素的迭代器,
集合中的元素個數是相同的,沒有則為null
join是先對rdd進行cogroup操作,然後再對新生成rdd,對key下的每個元素進行笛卡爾積操作,然後結果再平鋪
leftoutjoin和rightoutjoin
leftoutjoin(左外鏈結)和rightoutjoin(又外鏈結)意思相當,先對 兩個rdd進行join操作,他在對key下面每個元素進行笛卡爾積操作之前,先判斷value不為null.
23種設計模式分為3大類
建立型模式 建立型模式就是用來描述怎麼建立的物件的,比如最常見的單例模式 工廠方法模式 抽象工廠模式 單例模式 建造者模式 原型模式 結構型模式 用於描述如何將類或物件按某種組合成更大的結構 介面卡模式 裝飾器模式 模式 外觀模式 橋接模式 組合模式 享元模式 行為型模式 用於描述類或物件之間相互協...
SQL語言分為五大類
sql語言分為五大類 ddl 資料定義語言 create alter drop 這些語句自動提交,無需用commit提交。data definition language dql 資料查詢語言 select 查詢語句不存在提交問題。dml 資料操縱語言 insert update delete 這些...
現有的分詞演算法,主要分為哪三大類?
1 基於字串匹配的分詞方法 這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與乙個 充分大的 機器詞典中的詞條進行配,若在詞典中找到某個字串,則匹配成功 識別出乙個詞 按照掃瞄方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配 按照不同長度優先匹配的情況,可以分為最大 最長 匹配和最...