High-Dimensional Data and Curse of Dimensionality
High-Dimensional Data(고차원 데이터)의 특징과 예시
- Document classification의 경우 수천 개의 단어(Unigrams), 수백만 개의 Bigrams 및 문맥 정보가 모두 개별 Features로 작용하여 차원이 기하급수적으로 커짐
- 넷플릭스와 같은 설문 시스템에서는 48만 명의 사용자와 1만 7천 개의 영화 간의 평점(Ratings)을 행렬로 다루며, 이는 다수의 결측치(?)를 포함하는 거대한 희소 행렬 형태를 띰
- 유전자 네트워크 탐색 시 1만 개의 유전자, 1천 개의 약물, 다양한 종(Species) 간의 상호작용을 마이크로어레이(Microarray) 열지도(Heatmap) 형태의 방대한 발현량 신호로 처리해야 함
- MEG Brain Imaging에서는 120개의 뇌 측정 위치, 500개의 시간대, 20개의 객체에 대한 3차원 뇌 스캔 모델과 위치별 복잡한 시계열 파형 신호 데이터를 동시에 처리함
Curse of Dimensionality (차원의 저주)
- 문서 분류에 모든 단어가 유용하지 않듯, 불필요하고 중복되는(Redundant) Features가 다수 포함되어 분석 모델의 혼란을 가중시킴
- 데이터의 차원이 높아질수록 인간의 인지 범위를 벗어나 시각화(Visualize)하거나 결과를 직관적으로 해석하기가 거의 불가능해짐
- 방대한 차원은 데이터의 저장 및 처리 과정에서 치명적인 병목 현상(Computationally challenging)을 유발함
- Features의 수가 증가할수록 데이터를 분류하는 결정 경계(Decision boundaries)의 복잡도 역시 폭발적으로 증가하여 과적합을 초래함
Dimensionality Reduction (차원 축소)의 목적 및 개념
- 본질적인 정보를 상실하지 않는 선에서 3차원 데이터를 2차원 평면으로, 혹은 2차원 데이터를 1차원 선분으로 투영시켜 더 적은 차원(d < D)으로 압축 표현함
- 모델이 학습해야 할 파라미터 수를 극적으로 줄여 학습 속도와 일반화 성능(Easier learning)을 높임
- 다차원 데이터를 2D 혹은 3D 차원으로 내려 한눈에 파악할 수 있는 시각화 기반을 마련함