High-Dimensional Data and Curse of Dimensionality

High-Dimensional Data(고차원 데이터)의 특징과 예시

Document classification의 경우 수천 개의 단어(Unigrams), 수백만 개의 Bigrams 및 문맥 정보가 모두 개별 Features로 작용하여 차원이 기하급수적으로 커짐
넷플릭스와 같은 설문 시스템에서는 48만 명의 사용자와 1만 7천 개의 영화 간의 평점(Ratings)을 행렬로 다루며, 이는 다수의 결측치(?)를 포함하는 거대한 희소 행렬 형태를 띰
유전자 네트워크 탐색 시 1만 개의 유전자, 1천 개의 약물, 다양한 종(Species) 간의 상호작용을 마이크로어레이(Microarray) 열지도(Heatmap) 형태의 방대한 발현량 신호로 처리해야 함
MEG Brain Imaging에서는 120개의 뇌 측정 위치, 500개의 시간대, 20개의 객체에 대한 3차원 뇌 스캔 모델과 위치별 복잡한 시계열 파형 신호 데이터를 동시에 처리함

Curse of Dimensionality (차원의 저주)

문서 분류에 모든 단어가 유용하지 않듯, 불필요하고 중복되는(Redundant) Features가 다수 포함되어 분석 모델의 혼란을 가중시킴
데이터의 차원이 높아질수록 인간의 인지 범위를 벗어나 시각화(Visualize)하거나 결과를 직관적으로 해석하기가 거의 불가능해짐
방대한 차원은 데이터의 저장 및 처리 과정에서 치명적인 병목 현상(Computationally challenging)을 유발함
Features의 수가 증가할수록 데이터를 분류하는 결정 경계(Decision boundaries)의 복잡도 역시 폭발적으로 증가하여 과적합을 초래함

Dimensionality Reduction (차원 축소)의 목적 및 개념

본질적인 정보를 상실하지 않는 선에서 3차원 데이터를 2차원 평면으로, 혹은 2차원 데이터를 1차원 선분으로 투영시켜 더 적은 차원(d < D)으로 압축 표현함
모델이 학습해야 할 파라미터 수를 극적으로 줄여 학습 속도와 일반화 성능(Easier learning)을 높임
다차원 데이터를 2D 혹은 3D 차원으로 내려 한눈에 파악할 수 있는 시각화 기반을 마련함