2018年5月21日 星期一

Clustering分群、Classification分類

當手上有一堆資料,每筆資料當成一個點,那可以做:
  • Clustering Analysis(群聚分析):將這些點依據親疏遠近分群。在分群之前並不一定會知道結果共會出現幾群,故用機器學習做分群屬於非監督式學習(unsupervised learning)
    例:將一個班級的人特性比較像的分在同一群之內
  • Statistical Classification(分類問題):將每個點分到已知的類別中。在分類之前已經知道有幾類,做分類只是建立已知類別的特性,故用機器學習做分類則屬於監督式學習(supervised learning)
    例:已知活潑與文靜兩類,將一個班級的人合理的分到這兩類中

通常在描述這些點,會說有n個點、每個點有p個特徵:
  • n > p:傳統的統計都是處理這種狀況
  • p > n:大數據時代會出現的狀況,特徵比資料點還要多


上述的分群與分類,剛好都有一種k開頭的解法:
  • k-means clusteringk-mean):處理分群問題
    例:將n個點分成k個群
  • k-nearest neighbors algorithm (k-NN):處理分類問題
    例:已知n個點屬於c種類別。現在丟入一個新的點,這個點根據k個最接近的點來判別這個點應該屬於哪一類。
注意 k-mean與k-nearest neighbors 其k的意義完全不一樣

_EOF_

沒有留言:

張貼留言