AI/머신러닝

[머신러닝] 부트스트랩 샘플링

caramel-bottle 2024. 3. 23.

부트스트랩

부트스트랩(Bootstrap)은 프레임워크, 정보 보안 용어, 통계학 용어 등에 사용되는 단어입니다. 

 

단어의 사전적 정의는 다음과 같습니다.

 

부트스트랩(bootstrap) 또는 부트스트래핑(bootstrapping)은 "현재 상황에서 어떻게든 한다"는 뜻이다. 또, 사물의 초기 단계에서 단순 요소로부터 복잡한 체계를 구축하는 과정을 가리키는 경우도 있다. - 위키백과

 

"부트스트랩(Bootstrap)"이라는 용어는 어떤 시스템이나 프로세스가 자체적으로 셀프 스스로를 시작하고, 초기화하는 개념에서 유래합니다. 부트스트랩이라는 단어는 17세기 영어 표현인 "to pull oneself up by one's bootstraps(부츠의 끈으로 자신을 끌어올리다)"에서 비롯되었습니다. 이 표현은 실제로 부츠의 끈을 사용하여 자신의 몸을 일으키는 것이 불가능한 불가능한 행위를 의미합니다. - Mr.G

부트스트랩 샘플링

머신러닝에서의 부트스트랩은 통계학 개념과 같습니다.

 

쉽게 말하면 "원래 데이터 샘플로부터 반복적으로 무작위 표본 추출을 수행하는 방법" 입니다.

 

여기서 중요한 것은 복원추출이라는 점입니다. 

 

복원추출이란 원본 데이터에서 추출한 데이터를 제외시키지 않고 다음 추출을 진행하는 방법입니다.

 

부트스트랩 샘플링 활용 과정

  • 부트스트랩 샘플링을 통해 추출된 각 표본에 대한 통계량을 계산하고
  • 그 분포를 통해 원래 데이터 세트의 추정치의 신뢰구간이나 표준 오차를 계산합니다.

부트스트랩 샘플링 활용

작은 데이터 세트에서도 유효한 통계적 추정치를 제공하며, 복잡한 분포나 전통적인 방법이 적용하기 어려운 경우에도 유용합니다. 머신러닝에서 활용될 수 있는 경우는 아래와 같습니다. (Mr.G)

  1. 모델 평가 및 성능 추정:
    • 부트스트랩 샘플링은 모델의 성능을 평가하고 통계적 추정을 수행하는 데 사용됩니다. 예를 들어, 모델의 정확도, 정밀도, 재현율 등의 성능 지표를 계산할 때 사용될 수 있습니다. 이를 통해 통계적으로 유의미한 결과를 얻을 수 있습니다.
  2. 모델 선택 및 튜닝:
    • 여러 모델 또는 하이퍼파라미터 조합을 비교하고 최적의 모델을 선택하는 과정에서 부트스트랩 샘플링이 사용될 수 있습니다. 이를 통해 모델의 일반화 성능을 더 정확하게 추정할 수 있습니다.
  3. 데이터셋 크기 조정:
    • 부트스트랩 샘플링은 데이터셋의 크기를 조정하는 데 사용될 수 있습니다. 특히 데이터가 부족한 경우에는 부트스트랩을 사용하여 데이터의 복제를 통해 샘플 크기를 늘릴 수 있습니다.
  4. 불균형 데이터 처리:
    • 불균형한 클래스 분포를 가진 데이터셋에서는 부트스트랩 샘플링을 사용하여 클래스 간의 균형을 맞추는 데 사용될 수 있습니다. 이를 통해 모델이 불균형한 데이터에 대해 더 잘 학습할 수 있습니다.
  5. 앙상블 학습:
    • 부트스트랩 샘플링은 앙상블 학습 방법(예: 배깅, 랜덤 포레스트)에서 사용됩니다. 각 기반 모델을 훈련시킬 때 부트스트랩 샘플을 사용하여 다양성을 증가시키고 모델의 일반화 성능을 향상시킵니다.

참고

https://datasciencebeehive.tistory.com/88

 

[Machine Learning] 부트스트랩 샘플링의 힘 💪🔋🌟✊🏋️‍♂️🏋️‍♀️🚀🤛🤜🏆

통계학과 데이터 과학에서, 부트스트랩 샘플링(Bootstrap Sampling)은 강력하고 유연한 통계적 방법론입니다. 이 방법은 작은 데이터 샘플로부터 추정치의 변동성과 신뢰구간을 계산하는 데 사용됩

datasciencebeehive.tistory.com

 

https://en.wikipedia.org/wiki/Bootstrapping_(statistics)

 

Bootstrapping (statistics) - Wikipedia

From Wikipedia, the free encyclopedia Statistical method Bootstrapping is any test or metric that uses random sampling with replacement (e.g. mimicking the sampling process), and falls under the broader class of resampling methods. Bootstrapping assigns me

en.wikipedia.org

 

https://ko.wikipedia.org/wiki/%EB%B6%80%ED%8A%B8%EC%8A%A4%ED%8A%B8%EB%9E%A9

 

부트스트랩 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 부트스트랩(bootstrap) 또는 부트스트래핑(bootstrapping)은 "현재 상황에서 어떻게든 한다"는 뜻이다. 또, 사물의 초기 단계에서 단순 요소로부터 복잡한 체계를 구축

ko.wikipedia.org

 

댓글