01. 2분 안에 말하기

Gradient Boosting(GBM)은 회귀분석 또는 분류 분석을 수행하는 예측모형으로 경사하강법(gradient descent)과 부스팅(Boosting)이 결합된 앙살블 방법론입니다.

먼저 부스팅이란 약한 학습기(weak learner)를 결합하여 강한 학습기를 만드는 과정이고 경사하강법은 손실함수(loss function)를 최소화시키는 방법을 의미합니다.

즉, GBM은 여러 개의 결정 트리를 묶어 강력한 모델을 만드는 방법입니다. 이때 이전 학습의 결과에서 나온 잔차(residual)를 다음 학습에 전달해 이전의 잔차를 점진적으로 줄여나가는 방식으로 순차적으로 작동해나가면서 성능을 개선해나갑니다.

XGBOOST란 Extreme Gradient Boost의 약자로 GBM 알고리즘에 과적합 방지를 위한 파라미터를 추가한 알고리즘입니다. GBM대비 빠른 수행시간을 보이고 과적합을 규제함으로써 일반화 성능을 높일 수 있습니다.

02. 추가 학습 포인트

[GBM 프로세스]

Untitled

  1. 실제 몸무게 값과 single leaf의 몸무게 예측값의 차이인 Residual을 구합니다.

Untitled

Untitled

  1. 키, 색깔, 성별을 통해 Residual을 예측하는 트리를 만듭니다.

Untitled

  1. 두개의 residual값이 있는 경우 평균으로 치환해 줍니다.

Untitled

  1. 초기에 구한 트리(single leaf)와 두번째로 구한 트리를 조합해 몸무게를 예측합니다.

Untitled

Untitled

  1. 첫번째 트리의 몸무게 예측값인 71.2kg와 두번째 트리인 residual 예측 값인 16.8kg를 더하면 88kg가 됩니다. 즉, 성별이 남자고 좋아하는 색이 파란색이면 몸무게가 88kg라고 예측하게 됩니다.

Untitled