AI/머신러닝

[머신러닝] 머신러닝

caramel-bottle 2023. 12. 21.

머신러닝

인공지능 = 인공(Artificial) + 지능(Intelligence)

인공지능은 크게 개발자에 의한 인공지능과 데이터에 의한 인공지능으로 나눌 수 있다.

이 구분은 인공지능의 역사와 관련이 있다.

2023년 지금은 데이터의 양이 많고 처리속도도 빠르기 때문에 데이터 기반 인공지능 기술이 많이 발전되었다.

 

데이터를 기반으로 한 학습(Learning)하는 기계(Machine), 머신러닝 기술로 탄생한 인공지능이다.

머신러닝이란 '인간의 학습능력과 같은 기능을 컴퓨터에 부여하기 위한 기술'이다.

배경

과거 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업을 개발자가 직접 했다.

현재는 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 할 수 있는 일들이 많아졌다. 

대량의 데이터는 곧 머신러닝 기술의 기반이 된다.

머신러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이기 때문에 데이터가 가장 중요하다.


정의

머신러닝이란 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야

"무엇(x)으로 무엇(y)을 예측하고 싶다"의 함수(f)를 찾아내는 것

y: 출력변수(종속변수)

x: 입력변수(독립변수)

f모형 -> 머신러닝 알고리즘


머신러닝으로 할 수 있는 것

회귀(Regression)

시계열데이터 같은 연속된 데이터를 취급할 때 사용하는 기법

예) 과거 주식 추세를 학습해서 내일의 주가를 예측하는 시스템

*시계열데이터: 시간적인 변화를 연속적으로 관측한 데이터


분류(Classification)

주어진 데이터를 클래스별로 구별해 내는 과정으로 데이터와 데이터의 레이블값을 학습시키고 어느 범주에 속한 데이터인지 판단하고 예측

예) 스팸메일인지 아닌지 구별해주는 시스템을 개발


클러스터링(Clustering)

분류와 비슷하지만 데이터에 레이블이 없음

유사한 속성들을 갖는 데이터를 일정한 수의 군집으로 그룹핑하는 비지도 학습

예) SNS 데이터를 통해 소셜 및 사회 이슈를 파악


학습

지도 학습(Supervised Learning)

문제와 정답을 모두 학습시켜 예측 또는 분류하는 문제

x(입력변수)와 y(출력변수)의 관계에 대해 모델링 하는 것

y에 대해 예측 또는 분류하는 문제


비지도 학습(Unsupervised Learning)

y(출력변수)가 존재하지 않음. x(입력변수)간의 관계에 대해 모델링 하는 것

군집분석: 유사한 데이터끼리 그룹화

PCA: 독립변수들의 차원을 축소화


자기지도 학습(Self-Supervised Learning)

데이터 자체에서 스스로 레이블을 생성하여 학습에 이용하는 방법

다량의 Label이 없는 Raw Data로 부터 데이터 부분들의 관계를 통해 Label을 자동으로 생성하여 지도 학습에 이용하는 비지도 학습 기법

BERT, GPT 모델


강화학습(Reinforcement Learning)

결정을 순차적으로 내려야 하는 문제에 적용

라벨이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷

보상이라는 개념을 사용하여 가중치와 편향을 학습하는 것.


 

댓글