- Clustering Analysis(群聚分析):將這些點依據親疏遠近分群。在分群之前並不一定會知道結果共會出現幾群,故用機器學習做分群屬於非監督式學習(unsupervised learning)
例:將一個班級的人特性比較像的分在同一群之內 - Statistical Classification(分類問題):將每個點分到已知的類別中。在分類之前已經知道有幾類,做分類只是建立已知類別的特性,故用機器學習做分類則屬於監督式學習(supervised learning)
例:已知活潑與文靜兩類,將一個班級的人合理的分到這兩類中
通常在描述這些點,會說有n個點、每個點有p個特徵:
- n > p:傳統的統計都是處理這種狀況
- p > n:大數據時代會出現的狀況,特徵比資料點還要多
上述的分群與分類,剛好都有一種k開頭的解法:
- k-means clustering(k-mean):處理分群問題
例:將n個點分成k個群。 - k-nearest neighbors algorithm (k-NN):處理分類問題
例:已知n個點屬於c種類別。現在丟入一個新的點,這個點根據k個最接近的點來判別這個點應該屬於哪一類。
_EOF_
沒有留言:
張貼留言