01. 2분 안에 말하기

(보팅, 배깅) 포괄적 정의 : 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식배깅 앙상블정의 : 같은 유형의 알고리즘 기반의 분류기에 각각 서로 다른 데이터 샘플링을 사용한다. 이를 학습하여 보팅을 수행하는 것이다.

특징 : 부트스트래핑 분할 방식으로 학습을 통해 개별적인 예측을 수행한 결과를 보팅을 통해서 최종 예측 결과를 선정하는 방식이다. 교차 검증이 데이터 세트 간에 중첩을 허용하지 않는 것과 다르게 배깅 방식은 중첩을 허용한다. 예를 들어, 10000개의 데이터를 10개의 분류기가 배깅 방식으로 나누더라도 각 1000개의 데이터 내에는 중복된 데이터가 있다.

대표 방식 :(랜덤 포레스트 알고리즘)앙상블 알고리즘 중 비교적 빠른 수행 속도를 가지고 있으며 다양한 영역에서 높은 예측 성능을 보인다.랜덤 포레스트의 기반 알고리즘 : 결정 트리 ( 쉽고 직관적인 장점)

페이스팅 앙상블정의 : 중복을 허용하지 않고 샘플링하는 방식

02. 추가 학습 포인트

부트스트래핑Bootstrapping 분할 방식 - 여러 개의 데이터 세트를 중첩되게 분리하는 것. 개별 Classifier에게 데이터를 샘플링해서 추출하는 방식.

부트스트랩 목적 : 여러 개의 작은 데이터 세트를 임의로 만들어 개별 평균의 분포도를 측정하는 등의 목적을 위한 샘플링 방식.

트리 기반의 앙상블 알고리즘의 단점 : 하이퍼 파라미터가 너무 많고, 그로 인해 튜닝을 위한 시간이 많이 소모된다. 많은 시간을 소모했음에도 튜닝 후 예측 성능이 크게 향상되는 경우가 많지 않다.-> 랜덤포레스트는 하이퍼 파라미터가 적은 편에 속하는데 결정트리에서 사용되는 하이퍼 파라미터와 같은 파라미터가 대부분이기 때문이다.

배깅의 형태

페이스팅-중복을 허용하지 않고 샘플링하는 방식-> 배깅만이 한 예측기를 위해 같은 훈련 샘플을 여러 번 샘플링 할 수 있다

03. 코드 활용

https://wikidocs.net/26282

04. 참고문헌

https://wikidocs.net/26282파이썬 머신러닝 완벽 가이드 책 참고