Spark實戰練習02 處理分隔符

2022-03-06 17:31:19 字數 818 閱讀 2628

一、場景

devicestatus.txt 檔案包含了來自於不同運營商的移動裝置的資料,不同的資料格式,包括裝置id、當前狀態、位置等等。注意,該檔案中的記錄具有不同的字段分隔符:一些使用逗號,一些使用管道(|)等等。

二、任務

• 提取date(第乙個字段)、model(第二個字段)、devive id(第三字段)、緯度和經度(分別為13和14欄位)

• 第二個字段包含裝置製造商和模型名稱(如ronin s2)。將此字段分割為分隔制模型(for example, manufacturer ronin, model s2.)

三、**

//

1.載入資料,生成rdd

val data=sc.textfile("file:/home/training/training_materials/data/devicestatus.txt")

//2.過濾掉髒資料

val data_filter=data.filter(line => line.length > 20)

//3.不同分隔符統一

val mydata2=data_filter.map(line => line.split(line.charat(19)))

//4.過濾掉不正確解析的記錄

val mydata3=mydata2.filter(line => line.length == 14)

//5.構建格式化資料

val myresult=mydata3.map(line => (line(0),line(1).split(" ")(1),line(2),line(12),line(13)))

0x02 處理視窗關閉

開始之前先建立個分支,git checkout b events 讓視窗一直顯示很好辦,在原先 基礎上,通過乙個死迴圈就能解決.use sdl2 pixels color fnmain 複製 rust 有乙個loop的迴圈方式,running可以不用理會只是個生命週期標記.現在這個程式所處的狀態算不...

作業系統02 處理機管理

處理機排程是系統對處理機資源進行分配,使處於就緒狀態的程序得以執行。使用的處理機排程演算法決定了大型系統執行時的效能。1.處理機排程層次 乙個作業從提交到獲得處理機執行,直至作業執行完畢,可能需要經過多級處理機排程。處理機排程的層次分三層 2.作業與作業排程 3.程序排程 4.實時排程 優先順序倒置...

Spark實戰練習01 XML資料處理

一 要求 將xml中的account number model資料提取出來,並以account number model格式儲存 1 xml檔案資料格式 activations activation timestamp 1225499258 type phone account number 316...