카라멜보틀이 뭘까요?

카테고리 없음

[ML 스터디] 2일차 - 지도학습(2)

caramel-bottle 2024. 3. 22.

2024.03.20 - [분류 전체보기] - [ML 스터디] 1일차 - 지도학습(1)

[ML 스터디] 1일차 - 지도학습(1)

지도학습, 비지도학습, 반지도학습, 강화학습 지도학습이란? 문제(Feature)와 정답(Label)이 있는 학습 입력 값과 함께 정답 레이블을 같이 주고 학습을 시키는 방법 - 시간이 많이 소요될 수 있다. -

caramelbottle.tistory.com

분류(Classification)

1. SVM

...

2. Logistic Regression

...

3. 의사 결정 트리(Decision Tree)

각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소

장점

해석에 용이하다.
다른 방법들에 비해 전처리가 적게 요구된다.
Missing Value가 있어도 괜찮다.
속도가 빠르다.

단점

깊이가 깊을수록, 데이터가 적을수록 과적합될 위험이 크다.
완벽한 분류 규칙을 정하기가 힘들다. -> 랜덤 포레스트
모델의 정확도만 높이기 위해 분류 조건을 추가하면 깊이가 너무 깊어져 과적합 위험이 있다

휴리스틱 알고리즘을 사용하기 때문에 지역적으로 최적의 결정을 내린다 -> 전역적으로는 최적의 결과를 보장하지 않는다.

데이터에 민감하다.

4. 랜덤 포레스트(Random Forest)

앙상블(Ensemble): 여러가지 알고리즘들을 종합해서 결과는 내는 모델링 방식
- 보팅
- 배깅
- 부스팅
- 스태킹
Random Forest는 Decision Tree에 앙상블 기법중 배깅을 적용한 것
부트스트랩을 통해 다양한 서브 데이터셋을 생성하고 여러 개의 의사결정나무가 각각의 데이터셋을 학습하고 결과를 취합 함으로써 단일 의사결정나무가 가질 수 있는 과적합 문제를 해결할 수 있는 알고리즘이다.
부트스트랩: 복원추출
OOB

장점

다양한 종류의 데이터에 대해 높은 예측 성능을 보임
고차원, 대량 데이터 처리에 효과적임
각 특성(Feature)의 중요도를 파악할 수 있다. (predict_proba)

단점

데이터가 너무 작거나 불균형할 경우 조심해야함
여러 Decision Tree가 엮여있기 때문에 해석이 어렵다.
메모리 사용 및 계산 비용이 크다.

댓글

티스토리툴바