카라멜보틀이 뭘까요?

카테고리 없음

[ML 스터디] 1일차 - 지도학습(1)

caramel-bottle 2024. 3. 20.

지도학습, 비지도학습, 반지도학습, 강화학습

지도학습이란?

문제(Feature)와 정답(Label)이 있는 학습

입력 값과 함께 정답 레이블을 같이 주고 학습을 시키는 방법

- 시간이 많이 소요될 수 있다.

- 신뢰할만한 데이터셋을 사용해야한다. (사용자의 오류를 조심해야한다.)

- 주어진 레이블로만 분류할 수 있다. 결과가 고정적이다?? 레이블링 되어있지 않은 데이터에 대해선 알 수 없다.

Featrue?

특징, 입력 변수, 문제, 독립 변수

Label?

타겟, 목표 변수, 정답, 종속 변수

지도학습은 분류, 회귀로 나뉜다.

분류(Classification)

입력 변수를 통해 범주(클래스, 그룹)를 예측하는 것

이진 분류(Binary Classification): 클래스가 두 개인 경우

다중 클래스 분류(Multi-Class Classification): 클래스가 두 개 이상인 경우

1. 서포트 벡터 머신(SVM)

두 부류 사이에 존재하는 여백을 최대화하려는 목적으로 설계됨
비확률적 이진 선형 분류 모델
ovr, ovo를 사용하여 다중 클래스 분류가 가능

장점

이상치에 좋다
일반화 능력이 좋다.

단점

학습 속도가 느리다
메모리 사용량이 크다
데이터가 선형으로 나뉘지 않을 때 모델을 만들기 어렵다.

2. 로지스틱 회귀(Logistic Regression)

독립변수와 종속변수의 선형 관계성을 기반으로 만들어짐.
독립변수와 종속변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용한 것.
ovr, ovo를 사용하여 다중 클래스 분류가 가능 -> multinomial을 사용하는 것이 더 좋음(Softmax)

장점

계산 비용이 낮고 속도가 빠르기 때문에 대규모 데이터셋에 대해 효율적으로 작동한다. (SVM에 비해)
각 클래스에 대한 확률을 얻을 수 있다.

단점

복잡한 패턴에 대해서는 과소적합의 위험이 있음
데이터 불균형이 있을 경우 성능이 저하된다.

댓글

티스토리툴바