카테고리 없음

[ML 스터디] 1일차 - 지도학습(1)

caramel-bottle 2024. 3. 20.

지도학습, 비지도학습, 반지도학습, 강화학습

 

지도학습이란?

문제(Feature)와 정답(Label)이 있는 학습

 

입력 값과 함께 정답 레이블을 같이 주고 학습을 시키는 방법

 

- 시간이 많이 소요될 수 있다.

- 신뢰할만한 데이터셋을 사용해야한다. (사용자의 오류를 조심해야한다.)

- 주어진 레이블로만 분류할 수 있다. 결과가 고정적이다?? 레이블링 되어있지 않은 데이터에 대해선 알 수 없다.

 

Featrue?

특징, 입력 변수, 문제, 독립 변수

 

Label?

타겟, 목표 변수, 정답, 종속 변수

 

지도학습은 분류, 회귀로 나뉜다.


분류(Classification)

입력 변수를 통해 범주(클래스, 그룹)를 예측하는 것

 

이진 분류(Binary Classification): 클래스가 두 개인 경우

다중 클래스 분류(Multi-Class Classification): 클래스가 두 개 이상인 경우

 

1. 서포트 벡터 머신(SVM)

  • 두 부류 사이에 존재하는 여백을 최대화하려는 목적으로 설계됨
  • 비확률적 이진 선형 분류 모델
  • ovr, ovo를 사용하여 다중 클래스 분류가 가능

장점

  • 이상치에 좋다
  • 일반화 능력이 좋다.

단점

  • 학습 속도가 느리다
  • 메모리 사용량이 크다
  • 데이터가 선형으로 나뉘지 않을 때 모델을 만들기 어렵다.

 

2. 로지스틱 회귀(Logistic Regression)

  • 독립변수와 종속변수의 선형 관계성을 기반으로 만들어짐.
  • 독립변수와 종속변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용한 것.
  • ovr, ovo를 사용하여 다중 클래스 분류가 가능 -> multinomial을 사용하는 것이 더 좋음(Softmax)

장점

  • 계산 비용이 낮고 속도가 빠르기 때문에 대규모 데이터셋에 대해 효율적으로 작동한다. (SVM에 비해)
  • 각 클래스에 대한 확률을 얻을 수 있다.

단점

  • 복잡한 패턴에 대해서는 과소적합의 위험이 있음
  • 데이터 불균형이 있을 경우 성능이 저하된다.

 

 

댓글