01. 2분 안에 말하기

서포트 벡터 머신(SVM) 은 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용합니다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만듭니다. 만들어진 분류 모델은 데이터가 매핑된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘입니다. (최적의 경계는 마진을 최대화함)

SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있습니다. 비선형 분류를 하기 위해서 주어진 데이터를 고차원 특징 공간으로 매핑하는 작업이 필요한데, 이를 효율적으로 하기 위해 커널 트릭을 사용하기도 합니다. (처음부터 저차원 공간에서 비선형 경계를 구하려면 쉽지 않으므로 -> 커널 트릭을 활용하여 먼저 고차원 공간에서의 선형적인 해를 구한 뒤 저차원 공간에서의 비선형적인 해를 구함)

02. 추가 학습 포인트

Untitled

Untitled

-가운데 선이 데이터를 가장 적절하게 잘 구분합니다. 즉 Margin을 최대화합니다. Margin이란 선과 가장 가까운 양 옆 데이터와의 거리입니다.

-선과 가장 가까운 포인트를 서포트 벡터라고 합니다. 즉 Margin은 구분하는 선과 서포트 벡터와의 거리를 의미합니다.

-이렇게 데이터를 구분하는 선은 결정경계(Decision Boundary)라고 합니다.

Untitled

⇒ Graph F에서 결정경계가 데이터 군으로 부터 가장 멀리 떨어져 있습니다. 즉, 서포트 벡터가 결정 경계와 가장 멀리 떨어져 있으므로 마진이 최대화 되어 있습니다. 가장 적절한 결정경계라고 할 수 있습니다.

Untitled

-결정 경계 : 가운데 실선

-마진 : 검은 테두리가 있는 빨간점과 파란점 2개의 영역을 두고 그은 점선과 결정 경계까지의 거리

⇒최적의 결정 경계는 마진을 최대화합니다.

Untitled

-Robust란 강건하다는 의미로 outlier의 영향을 받지 않는다는 뜻입니다.

그러므로 Margin을 최대화하면 outlier의 영향을 받지않게 되어서 robust도 최대화됩니다.