感謝關注天善智慧型,走好資料之路↑↑↑
歡迎關注天善智慧型,我們是專注於商業智慧型bi,人工智慧ai,大資料分析與挖掘領域的垂直社群,學習,問答、求職一站式搞定!
通過網際網路資訊,我們可以看到很多的資訊,但是,該如何判斷資訊的可信度呢?例如看到新聞列舉的平均工資、各種知識付費新聞等等,我們該如何取捨呢?是別人怎麼說,我們就怎麼聽,還是自己去**真實性呢?
我想,在開始研究資料的真實性前,我們需要先來了解什麼是描述統計學?前面也有文章對這個進行了說明,在這裡做個總結。
描述統計學有平均值、中位數、四分位數、標準差、標準分等。
其中,當有異常值時,用平均值來描述資料,就會帶來誤導性資訊,例如平均工資,如果10個人中9個人的工資都是1000元,第10個人是10000萬,那麼就會大大的提高平均值,但是實際上拿到高薪的人屬於少數,這就給找工作的人帶來了誤導。因此,平均值在遇到異常值的時候,不可取。
在這種情況下,我們就可以選擇中位數或者是四分位數,中位數和四分位數都可以很好的體現出數值在一系列資料中的位置,所以,當我們想知道這系列的資料的某個數值處於什麼位置的時候,就可以參考中位數和四分位數,其次,四分位數可以判斷可能的異常值,特別是我們分析一組資料時通過畫箱線圖形式表現四分位數時,可以直**到資料是否存在異常值。
我對標準差的理解從定義上看就是相當於是資料的離散程度,如果標準差較大,說明數值和平均值之間差距較大,也就是離散程度比較大,如果標準差較小,說明資料的離散程度較小。例如,理解了標準差,我們可以通過標準差判斷乙個產品的製造過程是否在可控範圍內,若標準差過大,說明產品在製造過程中的波動較大,這個時候就需要對原因進行分析。
最後是標準分,標準分就是某資料的相對排名,可以在各資料集中進行比較。簡單點說,就是將資料按照一定的比例進行標準化,然後可以跟不同型別的資料進行比較,主要是通過它們的相對排名來比較。例如中考成績出來後,學生們的分數排名,就是一種標準分形式。
為了更直觀的表示上面四種描述統計學,我找到了之前在招聘**上爬取的招聘資訊進行分析,主要是分析工資這一欄資料。
1、平均值
在r語言中,計算平均值是用mean()函式進行計算。具體結果:
2、中位數、四分位數和標準差
分析學歷跟工資的關係:
educationdata <- newdata[,c(6,12)]library(dplyr)educationdata1 <- group_by(educationdata,education)educationdata1 <- summarise(educationdata1, mean=mean(meanmoney),##平均值 midmoney=median(meanmoney),##中位數 sdmoney=sd(meanmoney),##標準差 q1monry=quantile(meanmoney,c(.25)),##下四分位數 q2monry=quantile(meanmoney,c(.5)),##第二四分位數/中位數 q3monry=quantile(meanmoney,c(.75)))##上四分位數
在r語言中,可以用median()函式計算中位數,quantile()函式計算四分位數,sd()函式計算標準差,結果如下:
因為高中學歷的招聘數只有乙個,所以標準差不存在。從資料中可以看到每個學歷的平均值和中位數有差距,其中都是平均值大於中位數,也就是說存在異常值,且異常值屬於較大值,此時資料向右偏斜,我們可以畫出箱線圖進行驗證是否如此:
boxplot(meanmoney ~ education, data=educationdata, main="education vs meanmoney", xlab="education", ylab="meanmoney")
從箱線圖可以看出,學歷為本科、大專、不限都出現了異常值,且學歷為本科的異常值較大,對平均工資造成了一定的誤導。後續分析需要注意。
3、標準化
由於這段資料沒有標準化的需要,所以我隨機生成了一些資料進行標準化練習:
math <- seq(70,100,2)english <- seq(80,110,2)chinese <- seq(30,60,2)score <- data.frame(math,english,chinese)scorezscore <- scale(score)zscore
對資料進行了標準化後,使得原本不具備可比性的三科成績可以進行乙個比較,也就是說將三個不同的資料按照乙個標準進行標準化,我們可以知道這些資料的相對位置。
總結因此,當我們看到一些資料的時候,先不要被它的描述語言迷惑了,應該讀出其中的含義,看看是否屬於語言陷阱,誤導我們,給出乙個被掩蓋的事實,將這四種描述統計學應用在生活中。強烈推薦有興趣可以看看《赤裸裸的統計學》這本書,看完後,會發現在生活中統計學是如此的有用。
輸出的可信度
import mglearn import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model selection import train test split from sklear...
可信計算 可信度量 度量的起點
可信計算的三個關鍵技術 可信度量 儲存 報告 資料保護 身份證明。先講可信度量。度量的起點 可信度量的實際方法是完整性度量,完整性度量就是用雜湊函式計算 的雜湊值,與儲存的雜湊值對比,去發現 是否改變,根據比對結果,系統做出相應的判斷。度量的起點是rtm root of trust for trea...
應優先大力發展智慧型環境安全可信度評價演算法
應優先大力發展智慧型環境安全可信度評價演算法 時下國外國內人工智慧可謂如火如荼,可是奇怪的是大家把所有注意力都放在了這些具有簡單人工智慧的產品研發上面。如果說人工智慧的領頭羊是國外技術強國,那麼我們自己這只小羊羔倒是很乖巧的跟在屁股後面,好處 是不需要動一點兒腦子,只需要線性地將外國貨 外國技術向前...