spark 小實踐(5)倒排索引

2021-08-20 00:07:04 字數 850 閱讀 4749

搜尋引擎通常都會建立關鍵字的倒排索引,由關鍵字為index,後面跟著包含該關鍵字的網頁,本次使用模擬資料,簡要嘗試一下,建立倒排索引的過程。

第乙個元素為書名字,後面以空格分割,為書的關鍵字。

中間遇到乙個問題,就是textfile讀出的資料,沒有reducebykey方法,檢視了一下,是因為textfile讀出的資料是dataset不是rdd。所以下面的**中轉了一下rdd

object invertedindex 

val finalrdd = bookwordrdd.map(kv=>(kv._2,kv._1)).reducebykey(_+" "+_).collect()

}}

執行結果:

finalrdd: array[(string, string)] = array((spark,spark大資料分析實戰), (日誌分析,spark大資料分析實戰 hadoop實戰), (mapreduce,hadoop實戰 大資料實戰), (hdfs,hadoop實戰 大資料實戰), (大資料,spark大資料分析實戰 hadoop實戰), (namenode,hadoop實戰 大資料實戰), (推薦系統,spark大資料分析實戰 大資料實戰))

給出其他書本中的乙份**:

Spark聽課筆記 5

第16課 spark rdd操作的種類 transform action 觸發結果的作業,取結果 controller checkpoint,persist,including cache map f t u u型別的集合產生新的rdd reduce f t,t t 元素之間要符合交換律 沒有資料o...

Spark的5大優勢

二 mapreduce與spark相比,有哪些異同點 1 基本原理上 1 mapreduce 基於磁碟的大資料批量處理系統 2 spark 基於rdd 彈性分布式資料集 資料處理,顯示將rdd資料儲存到磁碟和記憶體中。2 模型上 1 mapreducel可以處理超大規模的資料,適合日誌分析挖掘等較少...

小團隊開發實踐

在一些大的軟體研發團隊中,普遍會採用cmmi rup等流程模型來管理研發過程。這些流程普遍需要比較大的管理開銷,在大型研發團隊中,可以設定專人來 負責相關的工作。但對於一些小型的研發團隊來講,不可能抽出時間和人力應對如此大的管理開銷。對於小團隊來講,生存壓力更大,軟體質量更為重要,從某種意 義上來講...