阿就操場啊~: Clustering分群、Classification分類

2018年5月21日星期一

Clustering分群、Classification分類

當手上有一堆資料，每筆資料當成一個點，那可以做：

Clustering Analysis（群聚分析）：將這些點依據親疏遠近分群。在分群之前並不一定會知道結果共會出現幾群，故用機器學習做分群屬於非監督式學習（unsupervised learning）
例：將一個班級的人特性比較像的分在同一群之內
Statistical Classification（分類問題）：將每個點分到已知的類別中。在分類之前已經知道有幾類，做分類只是建立已知類別的特性，故用機器學習做分類則屬於監督式學習（supervised learning）
例：已知活潑與文靜兩類，將一個班級的人合理的分到這兩類中

通常在描述這些點，會說有n個點、每個點有p個特徵：

n > p：傳統的統計都是處理這種狀況
p > n：大數據時代會出現的狀況，特徵比資料點還要多

上述的分群與分類，剛好都有一種k開頭的解法：

k-means clustering（k-mean）：處理分群問題
例：將n個點分成k個群。
k-nearest neighbors algorithm (k-NN)：處理分類問題
例：已知n個點屬於c種類別。現在丟入一個新的點，這個點根據k個最接近的點來判別這個點應該屬於哪一類。

注意 k-mean與k-nearest neighbors 其k的意義完全不一樣

_EOF_

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)