지도학습, 비지도학습, 반지도학습, 강화학습
지도학습이란?
문제(Feature)와 정답(Label)이 있는 학습
입력 값과 함께 정답 레이블을 같이 주고 학습을 시키는 방법
- 시간이 많이 소요될 수 있다.
- 신뢰할만한 데이터셋을 사용해야한다. (사용자의 오류를 조심해야한다.)
- 주어진 레이블로만 분류할 수 있다. 결과가 고정적이다?? 레이블링 되어있지 않은 데이터에 대해선 알 수 없다.
Featrue?
특징, 입력 변수, 문제, 독립 변수
Label?
타겟, 목표 변수, 정답, 종속 변수
지도학습은 분류, 회귀로 나뉜다.
분류(Classification)
입력 변수를 통해 범주(클래스, 그룹)를 예측하는 것
이진 분류(Binary Classification): 클래스가 두 개인 경우
다중 클래스 분류(Multi-Class Classification): 클래스가 두 개 이상인 경우
1. 서포트 벡터 머신(SVM)
- 두 부류 사이에 존재하는 여백을 최대화하려는 목적으로 설계됨
- 비확률적 이진 선형 분류 모델
- ovr, ovo를 사용하여 다중 클래스 분류가 가능
장점
- 이상치에 좋다
- 일반화 능력이 좋다.
단점
- 학습 속도가 느리다
- 메모리 사용량이 크다
- 데이터가 선형으로 나뉘지 않을 때 모델을 만들기 어렵다.
2. 로지스틱 회귀(Logistic Regression)
- 독립변수와 종속변수의 선형 관계성을 기반으로 만들어짐.
- 독립변수와 종속변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용한 것.
- ovr, ovo를 사용하여 다중 클래스 분류가 가능 -> multinomial을 사용하는 것이 더 좋음(Softmax)
장점
- 계산 비용이 낮고 속도가 빠르기 때문에 대규모 데이터셋에 대해 효율적으로 작동한다. (SVM에 비해)
- 각 클래스에 대한 확률을 얻을 수 있다.
단점
- 복잡한 패턴에 대해서는 과소적합의 위험이 있음
- 데이터 불균형이 있을 경우 성능이 저하된다.
댓글