AI23 [머신러닝 - 예제] 손글씨 데이터셋 - 서포트 벡터머신(SVM) 1. digits digits 데이터셋은 사이킷런에서 제공한다. scikit learn의 digits dataset은 UCL ML hand-written digits datasets의 copy라고 한다. https://archive.ics.uci.edu/dataset/80/optical+recognition+of+handwritten+digits UCI Machine Learning Repository This dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any pur.. AI/머신러닝 - 예제 2023. 12. 28. [머신러닝] Cross Validation(교차 검증) K-Fold Cross Validation ( K-겹 교차 검증 ) https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html sklearn.model_selection.train_test_split Examples using sklearn.model_selection.train_test_split: Release Highlights for scikit-learn 0.24 Release Highlights for scikit-learn 0.23 Release Highlights for scikit-learn 0.22 Comparison of Cal... scikit-learn.org https.. AI/머신러닝 2023. 12. 28. [머신러닝] Confusion Matrix, AUC & ROC 혼돈행렬 선형 모델의 성능은 MSE, MAE, RMSE등으로 평가된다. 분류 모델은 Confusion Matrix(혼돈 행렬)를 사용하여 Perfomance Test를 한다. 혼돈 행렬을 사용하여 정밀도(Precision), 재현률(Recall), 정확도(Accuracy), 조화평균(F1 Score)과 같은 평가 지수를 알 수 있다. Confusion Matrix: TN(8869) FP(0) FN(862) TP(1) Actual Values Predictive Values TN 승진하지 못함(N) 승진하지 못함 FN 승진하지 못함(N) 승진함 FP 승진함(P) 승진하지 못함 TP 승진함(P) 승진함 정밀도(Precision) TP / (TP + FP) 무조건 양성으로 판단해서 계산하는 방법 실제 1(TP.. AI/머신러닝 2023. 12. 27. [머신러닝 - 예제] Human Resource 데이터셋 - 로지스틱 회귀 1. 로지스틱 회귀 로지스틱 회귀는 둘 중 하나를 결정하는 문제(이진 분류)를 풀기 위한 대표적인 알고리즘이다. 2. hr 데이터셋 hr 데이터셋은 직원정보와 승진여부에 대한 데이터이다. 직원 데이터를 통해 승진여부를 예측해보자. import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import datetime as dt hr_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/hr.csv') # 요약 정보 hr_df.info() output>> RangeIndex: 54808 entries, 0 to 54807 Da.. AI/머신러닝 - 예제 2023. 12. 27. [머신러닝 - 예제] Bike 데이터셋 - 의사 결정 나무 1. bike 데이터셋 어떤 지역의 날씨 정보와 자전거 대여 현황 데이터셋이다. 2. 데이터 전처리 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import datetime as dt bike_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/bike.csv') 2-1. df.info() # info() bike_df.info() output>> RangeIndex: 33379 entries, 0 to 33378 Data columns (total 16 columns): # Column Non-Null C.. AI/머신러닝 - 예제 2023. 12. 26. [머신러닝 - 예제] Rent 데이터셋 - 선형 회귀 1. 선형회귀 선형회귀는 종속변수와 독립변수간의 선형 관계를 모델링하는 방법이다. 주로 예측, 상관분석, 추정하는 문제에 사용한다. 선형회귀 모델링의 결과는 하나의 직선이다. 직선의 주요 특성은 Coefficient(가중치), Intercept(절편)이다. 여기서 가중치는 기울기를 의미한다. 만약 데이터에 비선형적인 관계나 이상치가 많은 경우엔 다른 회귀 모델을 사용해야 한다. 2. Rent 데이터셋 선형회귀를 이해하고 사용하기 위한 예시로 Rent 데이터셋을 사용한다. Rent는 집 렌트에 관련된 데이터셋이다. import numpy as np import pandas as pd import seaborn as sns rent_df = pd.read_csv('/content/drive/MyDrive/K.. AI/머신러닝 - 예제 2023. 12. 25. [머신러닝] MSE, MAE, RMSE 평가지표 선형회귀 모델의 성능을 평가하고 비교하기 위해 사용되는 평가지표. 평가지표 예시에 사용될 값. p = np.array([3, 4, 5]) # 예측값 act = np.array([1, 2, 3]) # 실제값 MSE(Mean Squared Error) 예측값과 실제값의 차이에 대한 제곱을 평균낸 값 이상치에 민감하게 반응하는 경우 사용 def my_mse(pred, actual): return ((pred - actual) ** 2).mean() my_mse(p, act) 4.0 MAE(Mean Absolute Error) 예측값과 실제값의 차이에 대한 절대값을 평균낸 값 예측 오차의 크기에 직접적으로 관심이 있는 경우 사용 나중에 미분해야하는 경우가 생길 때 번거롭기 떄문에 잘 사용하지 않는다. .. AI/머신러닝 2023. 12. 25. [머신러닝 - 예제] 타이타닉 데이터셋 - 캐글 데이터셋 1. 타이타닉 데이터셋 타이타닉 데이터셋은 캐글(Kaggle)에서 다운받을 수 있다. https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 1912년 타이타닉호 침몰시 생존한 승객과 사망한 승객의 정보가 담겨있다. 각 승객의 어떤 정보가 생존여부와 관련이 있는지 데이터 분석을 해보자. 2. CSV파일 열기 제공된 데이터는 csv형식이기 때문에 pandas의.. AI/머신러닝 - 예제 2023. 12. 25. [머신러닝 - 예제] 아이리스 데이터셋 - 사이킷런 데이터셋 1. 데이터셋 사이킷런에서는 다양한 데이터셋을 제공합니다. 데이터셋이란 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 것을 말합니다. 사이킷런에서 제공하는 데이터셋은 아래 링크에서 확인하실 수 있습니다. https://scikit-learn.org/stable/modules/classes.html?highlight=datasets#module-sklearn.datasets API Reference This is the class and function reference of scikit-learn. Please refer to the full user guide for further details, as the class and function raw specifications may not be e.. AI/머신러닝 - 예제 2023. 12. 22. [머신러닝] 사이킷런(Sciket-learn) 사이킷런 사이킷런은 대표적인 파이썬 머신러닝 모듈이다. 지도학습(Supervised Leraning)과 비지도학습(Unsupervised Learning)의 다양한 알고리즘을 사용할 수 있고, 머신러닝 결과를 검증하는 기능또한 제공한다. 샘플 데이터도 사용할 수 있고 무료이기 때문에 굉장히 유용하다. https://scikit-learn.org/stable/index.html scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via .. AI/머신러닝 2023. 12. 21. [머신러닝] 머신러닝 머신러닝 인공지능 = 인공(Artificial) + 지능(Intelligence) 인공지능은 크게 개발자에 의한 인공지능과 데이터에 의한 인공지능으로 나눌 수 있다. 이 구분은 인공지능의 역사와 관련이 있다. 2023년 지금은 데이터의 양이 많고 처리속도도 빠르기 때문에 데이터 기반 인공지능 기술이 많이 발전되었다. 데이터를 기반으로 한 학습(Learning)하는 기계(Machine), 머신러닝 기술로 탄생한 인공지능이다. 머신러닝이란 '인간의 학습능력과 같은 기능을 컴퓨터에 부여하기 위한 기술'이다. 배경 과거 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업을 개발자가 직접 했다. 현재는 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 할 수 있는 일들이 많아.. AI/머신러닝 2023. 12. 21. 이전 1 2 다음