科學計算法:通過計算相關性係數r#coding=utf-8
import numpy
asnp
import pandas
aspd
import matplotlib.pyplot
asplt
import scipy.stats
asstats
"兩者的關係為:當p<0.05(或者0.01
)的前提下,才可以參考r值,不能僅僅只看r值。
假設p=0.02,r=0.8
,認為兩組資料存在高度線性關係
假設p=0.5,r=0.8
,認為兩組資料不能進行相關性比較,更別提相關性是高還是低(此時的相關性表現可能是巧合)
|r|<0.3
0.3<|r|<0.5
低度線性關係
0.5<|r|<0.8
顯著線性關係
|r|>0.8
高度線性關係
"csv_file = "
data.txt
"csv_data = pd.read_csv(csv_file,sep="
\t",names=['
x','
y','
a','
b','
c','d'
] )#是dataframe資料格式
print(csv_data.head(),type(csv_data))
r,p =stats.pearsonr(csv_data.b,csv_data.c) # 相關係數和p值
print(
'相關係數r為 = %6.3f,p值為 = %6.3f
'%(r,p))
#用 pandas 庫相關係數。
print(csv_data.b.corr(csv_data.c))
機器如何計算「相關性」?
絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...
機器如何計算「相關性」?
絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...
機器如何計算「相關性」?
絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...