2016年10月13日 星期四

R可以計算的距離

計算距離(Distance,或稱相異度Divergence)與相似度(Similarity)有許多方法。在R裡面可以用proxy套件《Registry of proximities》看支援的計算方式。指令如下:

> summary(pr_DB)
* Similarity measures:
Braun-Blanquet, Chi-squared, correlation, cosine, Cramer, Dice, eDice, eJaccard, Fager, Faith, Gower, Hamman,
Jaccard, Kulczynski1, Kulczynski2, Michael, Mountford, Mozley, Ochiai, Pearson, Phi, Phi-squared, Russel, simple
matching, Simpson, Stiles, Tanimoto, Tschuprow, Yule, Yule2

* Distance measures:
Bhjattacharyya, Bray, Canberra, Chord, divergence, DTW, Euclidean, fJaccard, Geodesic, Hellinger, Kullback, Levenshtein, Mahalanobis, Manhattan, Minkowski, Podani, Soergel, supremum, Wave, Whittaker

一般最常用來計算距離的是歐幾里德距離(Euclidean distance),但如果把距離這個概念推廣成兩件事物的差距,就會根據不同的狀況出現各種距離的計算方式。距離與相似度其實是一體兩面的概念,距離近的比較相似、距離遠的比較不相似,因此這個套件會把距離與相似度放在一起。

_EOF_

沒有留言:

張貼留言