Manifold Learning Overview
Dimensionality Reduction의 분류 및 한계
- Linear dimensionality reduction: Principal Component Analysis (PCA)와 같이 투영된 데이터의 분산(Variance)이 최대화되는 저차원 특징 공간(Principal components 기저)을 찾는 전통적인 선형적 방식임
- 선형 기법의 한계: 단순히 선형 공간에 넓게 퍼진 데이터에는 잘 작동하지만, 강의자료에 제시된 "S"-shape(S자 형태)나 "Swiss roll"(스위스 롤 케이크처럼 둥글게 말려있는 형태)과 같이 3차원 공간에서 복잡하게 꼬이거나 말려있는 구조의 데이터는 단순한 선형 부분 공간(Linear subspace)만으로 제대로 설명하거나 축소할 수 없음
- Non-linear dimensionality reduction: 데이터에 내재된 복잡한 기하학적 특성(Geometric properties)을 반영하여 비선형적인 저차원 표현(Representation)을 찾아내는 Manifold Learning이 해결책으로 도입됨
Manifold의 개념과 핵심 가정
- Manifold: 고차원 공간에 존재하는 데이터 포인트들의 특정 부분 집합으로, 이를 아주 좁은 구역 즉 국소적으로(Locally) 확대해서 보았을 때는 저차원 공간처럼 보이는 독특한 기하학적 구조를 의미함
- 직관적인 예시로 2차원 평면상의 원의 둘레(Circumference) 중 아주 작은 일부분만 떼어서 관찰하면 거의 휘어지지 않은 1차원의 직선(Line)처럼 다룰 수 있는 것과 완벽히 동일한 원리임
- Key assumption (핵심 가정): 겉보기에는 고차원 공간에 심하게 흩뿌려진 데이터라 할지라도, 실제로는 국소적으로 유클리디안(Locally Euclidean) 특성을 띠는 훨씬 단순하고 차원이 낮은 공간에 데이터가 내재(Embedded)되어 있다고 강력하게 가정함
- 따라서 데이터 간의 일관된 위치(Consistent locations) 좌표와 함께, 국소적인 관계성과 구조(Local relationships and structure)를 파괴하지 않고 최대한 보존하면서 저차원 공간으로 복원해내는 것이 Manifold Learning의 궁극적인 목표임
Similarity Graph Construction
Local Distances의 중요성과 Graph의 활용