01. 2분 안에 말하기
우선 선형회귀는 단순선형회귀, 다중선형회귀로 나뉘는데 다중선형회귀는 여러 개의 독립변수에 대한 하나의 종속변수를 파악하고자 합니다. 변수를 그대로 사용하게 되면 불필요한 정보들이 포함되거나 극단적인 결과가 나올 수 있는 문제점이 발생합니다.
이를 규제하 기 위해 다양한 회귀방법이 나타났는데 그것이 릿지, 라쏘, 엘라스틱 회귀 입니다. 선형회귀에 제약 조건을 추가한 값이 최소가 되도록 합니다.
릿지 회귀(L2)는 가중치의 제곱의 합이 특정 값 이하가 되도록 규제하는 방식입니다. 여기서 쓰인 α는 규제의 강도를 조절하는 역할로 모델의 복잡도를 조정합니다. 즉, 사용자가 파라미터를 설정할 수 있습니다. 그래서 α값을 크게 설정하면 가중치들의 절대값은 작아지면서 데이터의 평균을 지나는 수평선이 됩니다. 반면에 α가 작아지면서 0에 수렴할 경우 사실상 선형회귀와 같아집니다.

MSE : Mean Squared Error(평균 제곱 오차, 오차를 제곱한 값의 평균)
라쏘회귀(L1)는 릿지 회귀와 원리가 같지만 가중치의 절대값의 합이 특정 값 이하가 되도록 규제하는 방식으로 이들의 궁극적인 목표는 α값을 조절하여 과적합을 피하는 모델을 만드는 것입니다. α가 너무 작으면 과대적합이되고 너무 커지면 과소적합이 됩니다.

엘라스틱 넷은 릿지회귀와 라쏘회귀를 혼합한 모델입니다. 두 규제항의 혼합 비율 r을 사용해 모델을 만듭니다. 극단적으로 변수의 수가 훈련 샘플의 수보다 많거나 변수들 간의 다중공선성이 의심이 되는 경우(라쏘의 한계) 엘라스틱 넷을 주로 사용합니다.

02. 추가 학습 포인트
- 선형회귀만을 사용했을 때 훈련, 테스트 세트 사이의 성능 차이가 일어날 수 있습니다. 이는 과대적합(overfitting)되었다는 신호로 이를 규제하는 모델을 사용해야 합니다.
- 라쏘 모델의 α값이 커질수록 그만큼 가중치들의 절댓값이 작아지고 그만큼 기울기가 줄어듭니다. 기울기가 줄어들면 출력에 미치는 영향력이 줄어든다고 볼 수 있습니다. 반대로 α값이 작아질수록 가중치들의 절댓값은 커지고 0에 가까운 수가 된다면 규제 효과가 없어져서 선형 회귀와 같아집니다. 따라서 α가 커질수록 과소적합이, α가 작아질수록 과대적합이 될 가능성이 커집니다.
- 라쏘의 α가 클 경우 : L1-norm 작게 만드는데 초점, 가중치 0인게 많아짐, 특성 조금 사용, 과소적합
- 라쏘의 α가 작을 경우 : MSE 작게 만드는데 초점, 가중치 0인게 적어짐, 특성 많이 사용, 과대 적합
- 라쏘의 한계이유 : 라쏘는 변수 수가 샘플 수(n)보다 많으면 최대 n개의 변수를 선택하고 여러 변수 간 강한 상관관계를 띄면 임의 변수 하나를 선택합니다.
- 릿지는 w가 천천히 0으로 향해서 최소값 근처에서 기울기가 크지만, 라쏘는 w가 빠르게 0으로 향하므로 최소값 근처에서 기울기가 큽니다.

- 라쏘는 가중치들이 0이 되게 하므로써 해당되는 특성을 제외해주고 모델 해석력을 좋게 할 수 있습니다. 반면 릿지는 가중치가 0에 가까워질 뿐 0이 되지는 못합니다. 따라서 특성이 많은데 일부만 중요하다면 라쏘가, 특성의 중요도가 전체적으로 중요하다면 릿지가 좋은 모델입니다.
- 엘라스틱 넷_규제 : aL1 + bL2로 정의합니다. 여기서 는 α는 a+b입니다. L1_ratio = a/(a+b) 이고 L1_ratio가 0이면 a가 0이 되므로 L2 규제와 같고, L1_ratio가 1이면 b가 0이므로 L1 규제와 같습니다.
- L1 norm : 벡터의 모든 성분의 절대값을 더합니다.