선형 회귀란 종속 변수 y와 한 개 이상의 독립 변수(=설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법입니다.
한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 합니다.
선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정합니다.
여러 사용 사례가 있지만, 주로 아래와 같은 두 가지 분류 중 하나로 요약할 수 있습니다.
값을 예측하는 것이 목적 : 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발합니다. 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용됩니다.
종속 변수 y와 이것과 연관된 독립 변수 X1, …, Xp가 존재할 때 : Xj와 y의 관계를 정량화할 수 있습니다. (Xj와 y는 전혀 관계가 없을 수도 있고, 관련성이 존재하여 추가적인 정보를 제공하는 변수일 수도 있습니다.)
일반적으로 최소자승법(Ordinary Least Squares : OLS) & 최소제곱법(Least Square Method : LSM) / 경사하강법(Gradient Descent) 등을 사용해 선형 회귀 모델을 세웁니다. 또한 손실 함수(loss function)를 최소화하는 방식으로도 선형 회귀 모델을 세울 수 있습니다.
선형 회귀는 실제값과 예측값 사이의 평균제곱오차를 최소화하는 파라미터 w(가중치)와 b(편향) 를 찾습니다.
가설 함수를 평가하는 방법으로 평균 제곱 오차(Mean Squared Error)를 사용합니다. MSE는 데이터와 가설함수가 평균적으로 얼마나 떨어져 있는지 나타냅니다.
++제곱을 더하는 이유는 모든 오차를 양수로 통일하고, 더 큰 오차를 부각시키기 위함입니다.
손실 함수는 가설함수의 성능을 평가하는 함수이고, 보통 J라는 문자를 씁니다. 선형회귀에서는 평균제곱오차(MSE)가 손실함수의 output입니다.
손실 함수는 θ가 변수로 θ값들을 바꿔 손실 함수의 아웃풋을 최소화시켜야 합니다.