선형회귀의 개념은 Francis Galton(1822–1911)의 연구에서 기원
종속 변수 Y를 독립 변수 X의 선형 결합으로 표현한 모델
선형 결합: 벡터들 각각에 대해 스칼라를 곱하고 더하는 연산
입력 변수(X)와 출력 변수(Y) 간의 관계를 직선(선형 함수)으로 **설명(해석)**하고 예측함

관측값들이 선형적인 관계를 가진다고 가정하고, 이 관계를 가장 잘 설명하는 직선을 찾는 것이 목표임

선형회귀 모델:

→ 입력 벡터 X와 가중치 벡터 β의 선형 결합 + 확률 오차
ϵ은 확률 오차항 (x로 설명이 되지 않는 부분; 예측이 설명하지 못하는 부분)
정규분포를 따른다고 가정함

확률 오차를 고려한 Y값에 대한 분석

선형회귀의 목적



빨간 직선과 파란 직선 중 어느선이 더 좋은선?
a1 + a2 > b1 + b2 → 최소가 되는 것이 더 좋은 예측

목적 함수 : 절대값을 의미 → 미분 불가로 인해 실제 데이터와 예측값의 차의 제곱 평균 사용

2차식: 볼록 함수(convex function)이기 때문에 미분해서 0이 되는 점을 찾으면 최적해가 됨!

용어 주의

최소제곱법 목적: 예측값과 실제값의 차이를 제곱한 값을 최소화함

벡터 표현식: X에 대한 feature의 차원이 커지면, matrix 폼으로 다뤄야함!




최소 제곱법의 한계: $β=(X^TX)^{-1}$이 존재하지 않는 경우!!
⇒ 수치해석적으로 접근해보자! : 경사하강법