描述性統計是熟悉資料的最直接的方法之一,可以讓我們很輕鬆就知道資料中有多少個缺失的觀測資料、平均值、標準差、最大最下值
# 導包和建立連線的**我就不寫了
# 載入資料型別模組
import pyspark.sql.types as typ
# 載入資料
fraud = sc.textfile(
'./ccfraud.csv'
)header = fraud.first(
)# 刪除標題行 並將每個元素轉化為整形
fraud = fraud.
filter
(lambda row: row != header)
.map
(lambda row:
[int
(elem)
for elem in row.split(
',')
])
自己指定df的資料型別,這個我們之前的筆記中有提到過,是通過structfield() 方法和structtype() 方法實現的
fields =[*
[typ.structfield(h[1:
-1], typ.integertype(),
true
)for h in header.split(
',')]]
schema = typ.structtype(fields)
# 建立df
fraud_df = spark.createdataframe(fraud, schema)
對資料進行統計性描述
## 使用describe()方法 對資料進行統計性描述
從以上資料中 可以看出:最大值是平均值的多倍,說明資料呈正偏態分布; 均值和標準差之比非常高(接近或者大於1)說明這是乙個廣泛的資料集
n_numerical =
len(numerical)
# 檢視相關性
corr =
for i in
range(0
, n_numerical)
: temp =
[none
]*i
for j in
range
(i , n_numerical)
:, numerical[j]
))
注意 這段**的開銷非常大,用了兩個迴圈,所以需要一點時間執行 哈哈哈。明天將繼續學習資料視覺化和特徵的互動。 PySpark入門十二 資料清洗之離群值
構造資料 導包 from pyspark import sparkcontext from pyspark.sql.session import sparksession 連線 sc sparkcontext.getorcreate spark sparksession sc 生成資料 df out...
PySpark入門二 認識RDD
彈性分布式資料集,簡稱為rdd,是不可變jvm物件的分布式集合,spark 就是圍繞rdd而構建的。rdd對物件的作業是非常快速的執行的,這依賴於rdd的計算是依據快取和儲存在記憶體中的模式進行。rdd有兩組並行操作 轉換和動作。轉換是指返回指向新rdd的指標 動作是指在執行計算後返回值。同時,rd...
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...