카테고리 없음

[ML 스터디] 2일차 - 지도학습(2)

caramel-bottle 2024. 3. 22.

2024.03.20 - [분류 전체보기] - [ML 스터디] 1일차 - 지도학습(1)

 

[ML 스터디] 1일차 - 지도학습(1)

지도학습, 비지도학습, 반지도학습, 강화학습 지도학습이란? 문제(Feature)와 정답(Label)이 있는 학습 입력 값과 함께 정답 레이블을 같이 주고 학습을 시키는 방법 - 시간이 많이 소요될 수 있다. -

caramelbottle.tistory.com


 

분류(Classification)

1. SVM

...

2. Logistic Regression

...

3. 의사 결정 트리(Decision Tree)

  • 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소

장점

  • 해석에 용이하다.
  • 다른 방법들에 비해 전처리가 적게 요구된다.
  • Missing Value가 있어도 괜찮다.
  • 속도가 빠르다.

단점

  • 깊이가 깊을수록, 데이터가 적을수록 과적합될 위험이 크다.
  • 완벽한 분류 규칙을 정하기가 힘들다. -> 랜덤 포레스트
  • 모델의 정확도만 높이기 위해 분류 조건을 추가하면 깊이가 너무 깊어져 과적합 위험이 있다

휴리스틱 알고리즘을 사용하기 때문에 지역적으로 최적의 결정을 내린다 -> 전역적으로는 최적의 결과를 보장하지 않는다.

데이터에 민감하다.

4. 랜덤 포레스트(Random Forest)

  • 앙상블(Ensemble): 여러가지 알고리즘들을 종합해서 결과는 내는 모델링 방식
    • 보팅
    • 배깅
    • 부스팅
    • 스태킹
  • Random Forest는 Decision Tree에 앙상블 기법중 배깅을 적용한 것
  • 부트스트랩을 통해 다양한 서브 데이터셋을 생성하고 여러 개의 의사결정나무가 각각의 데이터셋을 학습하고 결과를 취합 함으로써 단일 의사결정나무가 가질 수 있는 과적합 문제를 해결할 수 있는 알고리즘이다.
  • 부트스트랩: 복원추출
  • OOB

장점

  • 다양한 종류의 데이터에 대해 높은 예측 성능을 보임
  • 고차원, 대량 데이터 처리에 효과적임
  • 각 특성(Feature)의 중요도를 파악할 수 있다. (predict_proba)

단점

  • 데이터가 너무 작거나 불균형할 경우 조심해야함
  • 여러 Decision Tree가 엮여있기 때문에 해석이 어렵다.
  • 메모리 사용 및 계산 비용이 크다.

 

댓글