一、場景
devicestatus.txt 檔案包含了來自於不同運營商的移動裝置的資料,不同的資料格式,包括裝置id、當前狀態、位置等等。注意,該檔案中的記錄具有不同的字段分隔符:一些使用逗號,一些使用管道(|)等等。
二、任務
• 提取date(第乙個字段)、model(第二個字段)、devive id(第三字段)、緯度和經度(分別為13和14欄位)
• 第二個字段包含裝置製造商和模型名稱(如ronin s2)。將此字段分割為分隔制模型(for example, manufacturer ronin, model s2.)
三、**
//1.載入資料,生成rdd
val data=sc.textfile("file:/home/training/training_materials/data/devicestatus.txt")
//2.過濾掉髒資料
val data_filter=data.filter(line => line.length > 20)
//3.不同分隔符統一
val mydata2=data_filter.map(line => line.split(line.charat(19)))
//4.過濾掉不正確解析的記錄
val mydata3=mydata2.filter(line => line.length == 14)
//5.構建格式化資料
val myresult=mydata3.map(line => (line(0),line(1).split(" ")(1),line(2),line(12),line(13)))
0x02 處理視窗關閉
開始之前先建立個分支,git checkout b events 讓視窗一直顯示很好辦,在原先 基礎上,通過乙個死迴圈就能解決.use sdl2 pixels color fnmain 複製 rust 有乙個loop的迴圈方式,running可以不用理會只是個生命週期標記.現在這個程式所處的狀態算不...
作業系統02 處理機管理
處理機排程是系統對處理機資源進行分配,使處於就緒狀態的程序得以執行。使用的處理機排程演算法決定了大型系統執行時的效能。1.處理機排程層次 乙個作業從提交到獲得處理機執行,直至作業執行完畢,可能需要經過多級處理機排程。處理機排程的層次分三層 2.作業與作業排程 3.程序排程 4.實時排程 優先順序倒置...
Spark實戰練習01 XML資料處理
一 要求 將xml中的account number model資料提取出來,並以account number model格式儲存 1 xml檔案資料格式 activations activation timestamp 1225499258 type phone account number 316...