01. 2분 안에 말하기

나이브 베이즈는 베이즈 정리에 기반한 통계적 분류 기법으로 하는 주어진 데이터가 class들 중 어떤 class에 속할 것인지 찾는 분류 문제입니다.

우선 베이즈 정리란 사전확률과 사후확률 사이의 관계를 나타내는 정리로 새로운 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 신뢰도를 갱신해 나가는 방법입니다.

나이브 베이즈 정리는 데이터의 특징을 가지고 각 클래스에 속할 확률을 계산하는 조건부 확률 기반의 분류 방법입니다. 여기서 데이터의 특징이 모두 상호 독립적이라는 가정 하에 확률 계산을 단순화합니다.

데이터의 특징을 바탕으로 사전 확률을 계산하며 해당 데이터가 어떤 클래스에 속할 확률이 가장 높은지를 계산한 후에 가장 높은 확률을 가지는 클래스를 찾는 것을 목표로 합니다.

Untitled

특정 정보가 추가되는 경우에는 사전 확률에 기여도(likehood)를 곱해주는 방식으로 ‘판단 근거’를 찾게 됩니다.

Untitled

예를들어 ‘신장’이라는 추가정보로 ‘성별’이라는 사전정보를 판별하게 된다면 여자일 확률 곱하기 여자이면서 키가 175cm일 확률을 곱해줌으로써 판단 근거로 삼을 수 있게 됩니다.

P (성별 = 여자) × P (키 = 175cm | 성별=여자)

나이브 베이즈 정리의 장점은 간단하고 빠르며 정확한 모델이라는 것과 큰 데이터셋에 적합하며 다중 클래스 예측에도 사용할 수 있다는 것입니다.

단점은 피쳐 간의 독립성이 있어야 하는데 실제 데이터에서 모든 피쳐가 독립인 경우는 드물기 때문에 실생활 적용이 어렵다는 점입니다.

02. 추가 학습 포인트

네 개의 확률 값 중 P(H)와 P(H|E)는 각각 사전 확률, 사후 확률이라고 부르고, 베이즈 정리는 근본적으로 사전확률과 사후확률 사이의 관계를 나타내는 정리입니다.

즉, 베이지 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대해 신뢰도를 갱신해 나가는 방법입니다. H는 Hypothesis의 약자로써 가설 혹은 '어떤 사건이 발생했다는 주장'을 의미하고 E는 Evidence '새로운 정보'를 의미합니다.

따라서 P(H)는 어떤 사건이 발생했다는 주장에 대한 신뢰도이자 사전 확률, P(H|E)는 새로운 정보를 받은 후 갱신된 신뢰도이자 사후확률을 의미합니다.