Supervised vs Unsupervised Learning

Supervised learning (지도 학습)
- 주어진 입력 특징(Features, x)을 바탕으로 타겟 값(Target value, y)을 예측하는 학습 방식임
- 타겟 값 y가 범주형(Categorical) 데이터인 경우 Classification (분류) 문제로 정의됨
- 타겟 값 y가 연속형(Continuous) 데이터인 경우 Regression (회귀) 문제로 정의됨
Unsupervised learning (비지도 학습)
- 정답(y) 없이 오직 입력 데이터(x)만을 가지고 데이터 내부에 숨겨진 패턴과 구조를 파악하는 학습 방식임
- 대표적인 비지도 학습의 예시로 Clustering (군집화) 기법이 존재함
Clustering의 목적 및 활용성
- 레이블이 없는(Unlabeled) 데이터들을 서로 유사한 특성을 가진 그룹(Clusters)으로 자동 분류하는 것을 목표로 함
- 레이블이 있는 데이터는 구축 비용이 비싸지만, 레이블이 없는 데이터는 쉽게 대량으로 확보할 수 있으므로 매우 유용함
- 방대한 데이터를 자동으로 구조화(Organizing)하고, 데이터 이면의 숨겨진 구조를 이해하는 데 탁월한 성능을 보임
- 추가적인 분석을 위한 전처리(Preprocessing) 과정으로 활용되며, 데이터 압축(Data compression)을 통해 메모리와 연산량을 절약할 수 있음
- 고차원의 데이터를 저차원 공간에 표현하여 Data visualization(데이터 시각화)을 수행하거나, Supervised learning의 사전 단계로도 활용됨

Clustering Analysis

군집화를 수행하기 위해서는 알고리즘을 구성하는 3가지 핵심 요소가 정의되어야 함
A (dis-)similarity function (유사도/비유사도 함수)
- 데이터 포인트 간의 관계를 측정하는 함수로, 두 데이터가 얼마나 유사한지 혹은 다른지를 수학적으로 정의함
A loss function (손실 함수)
- 생성된 군집의 품질을 평가하는 지표로, 유사한 데이터 포인트들이 같은 군집에 잘 모이도록 유도하는 최적화 기준이 됨
An algorithm (최적화 알고리즘)
- 정의된 손실 함수를 최소화(혹은 최대화)하여 최종적인 군집을 도출해내는 구체적인 연산 과정임

Image Segmentation (이미지 분할)
- 풍경 사진(예: 해변의 야자수)의 각 픽셀들이 가진 색상, 명도 등의 유사도를 바탕으로 군집화를 수행함
- 이를 통해 하늘, 바다, 모래사장, 나무 등 의미 있는 영역 단위로 이미지를 분할하여 분석할 수 있음