2016年3月21日 星期一

兩個變項的關聯性

討論兩個變項,一個叫X、另一個叫Y,之間的關聯性(bivariate association)這件事情叫做bivariate analysis,首先會依序注意三件事情
  • 兩變項之間是否真的有相關?
  • 相關存在的話,強弱如何?
  • 相關之間的模式(pattern)與方向(direction)是如何?
例如說,兩個變項身高與體重。討論某一群人的身高與體重的關聯性,首先要先看兩者是否有相關(correlation);若有相關,則討論身高與體重的相關性有多高;最後則是看是否能夠用什麼公式之類的,訂出身高與體重之間的相關性。

首先,如果兩個變項是分類的變數(categorical variable),可以寫雙項交叉表(bivariate table)來看是否有相關;如果一個是分類變數、一個是連續變數,那則可以用箱型圖(bloxplot)或是mosaic plot來看。如果兩變項都是連續的變數,像是身高與體重這種情形,則可以話XY散佈圖(scatterplot),以下的說明用兩個連續變項為例子。

看出兩變項之間有相關之後,則可以用不同的測量方式來量化相關的強度。最常使用的測量量是Pearson product-moment correlation coefficient、簡稱Pearson's r。這個方式量出來的強弱是兩個變項之間的線性關聯性,所以說如果Pearson's r很高,代表兩變項之間的線性關聯性很強;但如果Pearson's r很低,僅代表線性關聯性很低,不代表兩者沒有相關。
例如說某兩變項是單調相關(monotonically increasing or monotonically decreasing),意思是說其中一個增加、另外一個就一定會增加(或減少),那麼用rank correlation來做會比較恰當。

如果兩變項之間的關係是線性的(linear association),或是想看線性關聯性,則用
  • Pearson's r:Pearson product-moment correlation coefficient
如果兩變項之間的關係是非線性的(non-linear association),看起來是單調相關,則可用
如果兩變項是非線性,看起來也不是單調相關,也許只能夠用迴歸分析來找相關性。以上方法算出來相關係數(correlation coefficient)的值都會在-1到1之間。-1代表完全負相關、負數代表負相關、0代表無相關、正數代表正相關、1代表完全正相關。

以上就是兩變項相關性的計算。在此要注意,只用一個相關係數來表示相關性其實常會造成許多誤解。當相關係數很高的時候還好、但是相關係數靠近0有時候不代表沒有相關,而可能只是這個計算方式並不適合反映資料的樣子。詳情可參考英文維基百科的條目《Correlation and dependence》
最後要提醒的是,有相關並不必然代表兩者有因果關係

_EOF_

沒有留言:

張貼留言