2024.03.20 - [분류 전체보기] - [ML 스터디] 1일차 - 지도학습(1)
분류(Classification)
1. SVM
...
2. Logistic Regression
...
3. 의사 결정 트리(Decision Tree)
- 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소
장점
- 해석에 용이하다.
- 다른 방법들에 비해 전처리가 적게 요구된다.
- Missing Value가 있어도 괜찮다.
- 속도가 빠르다.
단점
- 깊이가 깊을수록, 데이터가 적을수록 과적합될 위험이 크다.
- 완벽한 분류 규칙을 정하기가 힘들다. -> 랜덤 포레스트
- 모델의 정확도만 높이기 위해 분류 조건을 추가하면 깊이가 너무 깊어져 과적합 위험이 있다
휴리스틱 알고리즘을 사용하기 때문에 지역적으로 최적의 결정을 내린다 -> 전역적으로는 최적의 결과를 보장하지 않는다.
데이터에 민감하다.
4. 랜덤 포레스트(Random Forest)
- 앙상블(Ensemble): 여러가지 알고리즘들을 종합해서 결과는 내는 모델링 방식
- 보팅
- 배깅
- 부스팅
- 스태킹
- Random Forest는 Decision Tree에 앙상블 기법중 배깅을 적용한 것
- 부트스트랩을 통해 다양한 서브 데이터셋을 생성하고 여러 개의 의사결정나무가 각각의 데이터셋을 학습하고 결과를 취합 함으로써 단일 의사결정나무가 가질 수 있는 과적합 문제를 해결할 수 있는 알고리즘이다.
- 부트스트랩: 복원추출
- OOB
장점
- 다양한 종류의 데이터에 대해 높은 예측 성능을 보임
- 고차원, 대량 데이터 처리에 효과적임
- 각 특성(Feature)의 중요도를 파악할 수 있다. (predict_proba)
단점
- 데이터가 너무 작거나 불균형할 경우 조심해야함
- 여러 Decision Tree가 엮여있기 때문에 해석이 어렵다.
- 메모리 사용 및 계산 비용이 크다.
댓글