在spark字數統計示例中,將找出指定檔案中存在的每個單詞的出現頻率。在這裡,我們使用scala語言來執行spark操作。
執行spark字數計算示例的步驟
在此示例中,查詢並顯示每個單詞的出現次數。在本地計算機中建立乙個文字檔案並在其中寫入一些文字。
檢查sparkdata.txt檔案中寫入的文字。
$ cat sparkdata.txt
在hdfs中建立乙個目錄,儲存文字檔案。
$ hdfs dfs -mkdir /spark
將hdd上的sparkdata.txt 檔案上傳到特定目錄中。
現在,按照以下命令在scala模式下開啟spark。
使用以下命令建立乙個rdd。
scala> val data=sc.textfile("sparkdata.txt")
在這裡,傳遞包含資料的任何檔名。現在,可以使用以下命令讀取生成的結果。
在這裡,使用以下命令以單個單詞的形式拆分現有資料。
scala> val splitdata = data.flatmap(line => line.split(" "));
現在,可以使用以下命令讀取生成的結果。
接下來,執行對映操作。
scala> val mapdata = splitdata.map(word => (word,1));
在這裡,為每個單詞分配值1。可以使用以下命令讀取生成的結果。
現在,執行reduce操作 -
scala> val reducedata = mapdata.reducebykey(_+_);
在這裡,我彙總了生成的資料。使用以下命令讀取生成的結果。
¥ 我要打賞
糾錯/補充
收藏加qq群啦,易百教程官方技術學習群
注意:建議每個人選自己的技術方向**,同乙個qq最多限加 3 個群。
統計單詞個數
輸入 檔名稱 sum123.cpp 作 者 林海雲 完成日期 2014年12月16日 版 本 號 v2.0 問題描述 統計各陣列中單詞的個數 程式輸入 程式輸出 統計結果 include includeusing namespace std int pwordnum char str int mai...
統計單詞個數
qaq 話說這個題目跟那個乘號的比較像啊,用f i j 表示前i個字母劃分為j段的單詞最大數 那麼我們很容易就得到乙個狀態轉移方程 f i j max f i j f l 1 j w w為l i區間裡單詞的數目 現在的問題是w咋求 之前我做的乙個題是劃分乘號的 那個我們處理了乙個sum i j 陣列...
考研單詞統計
距離上次寫統計考研單詞已經過了好幾個月了吧,我真的太懶了。但是好飯不怕晚,趁著今晚摸了電腦我就寫完了。本次主要粗略統計了2004 2015年的考研英語單詞 真實性不詳 但還是挺可靠的 偷偷告訴你們lz有好多單詞不認識,好慌啊。廢話少說,上 include include include includ...