01. 2분 안에 말하기

선형 회귀란 종속 변수 y와 한 개 이상의 독립 변수(=설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법입니다.

한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 합니다.

선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정합니다.

여러 사용 사례가 있지만, 주로 아래와 같은 두 가지 분류 중 하나로 요약할 수 있습니다.

  1. 값을 예측하는 것이 목적 : 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발합니다. 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용됩니다.

  2. 종속 변수 y와 이것과 연관된 독립 변수 X1, …, Xp가 존재할 때 : Xj와 y의 관계를 정량화할 수 있습니다. (Xj와 y는 전혀 관계가 없을 수도 있고, 관련성이 존재하여 추가적인 정보를 제공하는 변수일 수도 있습니다.)

일반적으로 최소자승법(Ordinary Least Squares : OLS) & 최소제곱법(Least Square Method : LSM) / 경사하강법(Gradient Descent) 등을 사용해 선형 회귀 모델을 세웁니다. 또한 손실 함수(loss function)를 최소화하는 방식으로도 선형 회귀 모델을 세울 수 있습니다.

선형 회귀는 실제값과 예측값 사이의 평균제곱오차를 최소화하는 파라미터  w(가중치)와 b(편향) 를 찾습니다.

02. 추가 학습 포인트

평균 제곱 오차(MSE)

가설 함수를 평가하는 방법으로 평균 제곱 오차(Mean Squared Error)를 사용합니다. MSE는 데이터와 가설함수가 평균적으로 얼마나 떨어져 있는지 나타냅니다.

Untitled

Untitled

++제곱을 더하는 이유는 모든 오차를 양수로 통일하고, 더 큰 오차를 부각시키기 위함입니다.

손실 함수(Loss Function)

Untitled

손실 함수는 가설함수의 성능을 평가하는 함수이고, 보통 J라는 문자를 씁니다. 선형회귀에서는 평균제곱오차(MSE)가 손실함수의 output입니다.

손실 함수는 θ가 변수로 θ값들을 바꿔 손실 함수의 아웃풋을 최소화시켜야 합니다.