2016年4月6日 星期三

相關係數

相關係數(Correlation Coefficient, C.C.)是用來看兩個變項之間關聯性的量化數值。使用不同的方法計算通常會用不同的符號表示。像是Pearson的相關係數會叫做r、Spearman的相關係數會叫做ρ、Kendall的相關係數會叫做τ、Goddman and Kruskal的相關係數會叫做r、Pearson的相關係數會叫做γ。以下介紹相關係數的特性,內容參考GraphPad上的文章

不論是哪一個方法,算出來的相關係數會在-1到1之間
  • 1,完全正相關 (Perfect correlation)
  • 0到1,正相關
  • 0,無相關
  • -1到0,負相關
  • -1,完全負相關 (Perfect negative or inverse correlation)


如果說變數X與變數Y的相關係數離零很遠,有下列幾種可能
  • 改變X會造成Y的改變
  • 改變Y會造成X的改變
  • X與Y的改變是由另外的變項所影響
  • X與Y的改變並非真正有相關,而是恰巧觀察到的資料有相關。這時候可以透過計算相關係數的p-value來得知隨機取樣可以得到這個相關係數的可能性,當作是判斷相關係數可靠性的參考。

r2r squared)相關係數的平方

      如果相關係數的平方r2 = 0.92,代表有92%Y的變異數(variance in Y)可以為X所解釋;反過來也可以說有92% X的變異數(variance in X)可以為Y所解釋。不過計算Spearman's correlation通常不會計算其相關係數的平方。


相關係數的P-value

      P-value用來回答這個問題:當變數X與變數Y之間無相關,那隨機抽取n個樣本(如計算相關係數用到n對X,Y)可能得到多少的機會讓其相關係數大於某個r
如果說P-value很小,可以排除得到的相關性是來自於隨機抽樣造成的結果
如果說P-value很大,那就沒辦法得到結論說兩個變數是真的相關。這種情況下,其中一種解決方式是做更多的實驗。那究竟要多做多少實驗,則可以用sample size determination來估算effect size

_EOF_

沒有留言:

張貼留言