有序分類和連續變數所對應的相關性

2021-10-01 17:19:00 字數 367 閱讀 3431

分類變數(categorical variable)是說明事物類別的乙個名稱,其取值是分類資料。如「性別」就是乙個分類變數,其變數值為「男」或「女」;「行業」也是乙個分類變數,其變數值可以為「零售業」、「旅遊業」、「汽車製造 業」等。

有序分類變數:各類別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類;療效按**、顯效、好轉、無效分類。

有序分類變數如微生物菌群豐度、代謝產物豐度及藥效之間的相關性可以使用spearman相關性進行分析。

連續變數

連續變數是在任意兩個值之間具有無限個值的數值變數。連續變數可以是數值變數,也可以是日期/時間變數。例如,零件的長度,或者收到付款的日期和時間。

可以使用pearson相關性進行分析。

離散變數和連續變數

離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量...

連續變數離散化的原因

資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離 等頻率或優化的方法。資料離散化的原因主要有以下幾點 比如決策樹 樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣...

連續變數離散化的幾種方法

連續變數離散化有三種方法 1.等寬離散化 2.等頻離散化 3.利用聚類進行離散化 import numpy as np import pandas as pd 引數初始化 datafile data discretization data.xls 讀取資料 data pd.read excel da...