PySpark入門十三 資料清洗之描述性統計

2021-10-24 10:59:39 字數 1502 閱讀 4747

描述性統計是熟悉資料的最直接的方法之一,可以讓我們很輕鬆就知道資料中有多少個缺失的觀測資料、平均值、標準差、最大最下值

# 導包和建立連線的**我就不寫了

# 載入資料型別模組

import pyspark.sql.types as typ

# 載入資料

fraud = sc.textfile(

'./ccfraud.csv'

)header = fraud.first(

)# 刪除標題行 並將每個元素轉化為整形

fraud = fraud.

filter

(lambda row: row != header)

.map

(lambda row:

[int

(elem)

for elem in row.split(

',')

])

自己指定df的資料型別,這個我們之前的筆記中有提到過,是通過structfield() 方法和structtype() 方法實現的

fields =[*

[typ.structfield(h[1:

-1], typ.integertype(),

true

)for h in header.split(

',')]]

schema = typ.structtype(fields)

# 建立df

fraud_df = spark.createdataframe(fraud, schema)

對資料進行統計性描述

## 使用describe()方法 對資料進行統計性描述

從以上資料中 可以看出:最大值是平均值的多倍,說明資料呈正偏態分布; 均值和標準差之比非常高(接近或者大於1)說明這是乙個廣泛的資料集

n_numerical =

len(numerical)

# 檢視相關性

corr =

for i in

range(0

, n_numerical)

: temp =

[none

]*i

for j in

range

(i , n_numerical)

:, numerical[j]

))

注意 這段**的開銷非常大,用了兩個迴圈,所以需要一點時間執行 哈哈哈。明天將繼續學習資料視覺化和特徵的互動。

PySpark入門十二 資料清洗之離群值

構造資料 導包 from pyspark import sparkcontext from pyspark.sql.session import sparksession 連線 sc sparkcontext.getorcreate spark sparksession sc 生成資料 df out...

PySpark入門二 認識RDD

彈性分布式資料集,簡稱為rdd,是不可變jvm物件的分布式集合,spark 就是圍繞rdd而構建的。rdd對物件的作業是非常快速的執行的,這依賴於rdd的計算是依據快取和儲存在記憶體中的模式進行。rdd有兩組並行操作 轉換和動作。轉換是指返回指向新rdd的指標 動作是指在執行計算後返回值。同時,rd...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...