회귀 알고리즘이 분류에 사용되는 사례입니다. 로지스틱 회귀는 샘플이 특정 클래스에 속할 확률을 추정하는 데 널리 사용됩니다. 예를 들면 이 이메일이 스팸일 확률은 얼마인가?와 같은 질문이 가능합니다.
로지스틱 회귀 모델은 이진 분류기의 형태를 띕니다. 추정 확률이 50%가 넘으면 모델은 그 샘플이 해당 클래스에 속한다고 예측하고, 그 50%를 넘지 않으면 클래스에 속하지 않는다고 예측하는 방식입니다.
그림처럼 종속변수가 범주형이면서 0 또는 1로 구분되는 경우, 선형회귀로는 분류가 어렵기 때문에 곡선형태인 로지스틱 회귀 모델을 활용하게 됩니다.
로지스틱 회귀는 선형회귀모델과 같이 입력 변수의 가중치 합을 계산한 뒤, 바로 예측값을 출력하지 않고 결과값의 로지스틱(logistic)을 출력합니다.
이때 로지스틱의 값은 0~1사이의 값을 출력하는 시그모이드 함수를 통해 구하게 됩니다.
로지스틱 회귀 모델은 여러 개의 이진 분류기를 훈련시켜 연결하지 않고 직접 다중 클래스를 사용할 수도 있는데, 이를 소프트맥스 회귀 또는 다항 로지스틱 회귀라고 부릅니다.
Sigmoid 함수는 딥러닝 파트에서 활성함수(activation function)로 활용되는데
값을 0 or 1로 반환합니다. 즉, Sigmoid를 거친값은 최소가 0, 최대가 1이라는 보장을 할 수 있습니다.
예를 들어 양성/음성 분류에 사용되는거라면 y값이 0.5이상이 나오면 양성, 그 이하면 음성으로 정의합니다.