- 兩變項之間是否真的有相關?
- 相關存在的話,強弱如何?
- 相關之間的模式(pattern)與方向(direction)是如何?
首先,如果兩個變項是分類的變數(categorical variable),可以寫雙項交叉表(bivariate table)來看是否有相關;如果一個是分類變數、一個是連續變數,那則可以用箱型圖(bloxplot)或是mosaic plot來看。如果兩變項都是連續的變數,像是身高與體重這種情形,則可以話XY散佈圖(scatterplot),以下的說明用兩個連續變項為例子。
看出兩變項之間有相關之後,則可以用不同的測量方式來量化相關的強度。最常使用的測量量是Pearson product-moment correlation coefficient、簡稱Pearson's r。這個方式量出來的強弱是兩個變項之間的線性關聯性,所以說如果Pearson's r很高,代表兩變項之間的線性關聯性很強;但如果Pearson's r很低,僅代表線性關聯性很低,不代表兩者沒有相關。
例如說某兩變項是單調相關(monotonically increasing or monotonically decreasing),意思是說其中一個增加、另外一個就一定會增加(或減少),那麼用rank correlation來做會比較恰當。
如果兩變項之間的關係是線性的(linear association),或是想看線性關聯性,則用
- Pearson's r:Pearson product-moment correlation coefficient
- Spearman's ρ:Spearman's rank correlation coefficient
- Kendall's τ:Kendall rank correlation coefficient
- Goodman and Kruskal's γ:Goodman and Kruskal's gamma
以上就是兩變項相關性的計算。在此要注意,只用一個相關係數來表示相關性其實常會造成許多誤解。當相關係數很高的時候還好、但是相關係數靠近0有時候不代表沒有相關,而可能只是這個計算方式並不適合反映資料的樣子。詳情可參考英文維基百科的條目《Correlation and dependence》。
最後要提醒的是,有相關並不必然代表兩者有因果關係。
_EOF_
沒有留言:
張貼留言