반응형
목차
개요
이번 포스트에서는 머신러닝에서 중요한 훈련 데이터(training data)와 테스트 데이터(testing data)에 대해 알아보고 그 차이에 대ㅐ해서도 알아다.
개념
훈련 데이터
기계 학습 알고리즘이 학습하기 위해 사용되는 데이터로, 알고리즘의 파라미터를 조정하고 모델 성능을 최적화하는 데 사용된다.
테스트 데이터
모델이 새로운 데이터에 얼마나 잘 일반화하는지 평가하기 위해 사용되며, 이를 통해 과적합을 감지할 수 있다.
훈련 데이터와 테스트 데이터를 나누는 것은 모델의 일반화 성능을 평가하기 위한 중요한 과정이다.
머신러닝에서의 데이터셋
머신러닝에서 훈련 데이터와 테스트 데이터를 나누고 사용하는 구체적인 방법은 다음과 같다.
- 데이터셋 분할
전체 데이터셋을 훈련 데이터와 테스트 데이터로 나눈다.
일반적으로 훈련 데이터는 전체 데이터셋의 70~80%를 차지하며, 테스트 데이터는 20~30%를 차지한다.
이 분할은 무작위로 진행되어야 하며, 때로는 시간 순서에 따라 분할하기도 한다. - 훈련 데이터 사용
훈련 데이터를 사용하여 머신러닝 모델을 학습시킨다
이 과정에서 모델의 파라미터가 조정되어 최적화된다
훈련 데이터에 대한 모델의 성능은 학습 과정에서 점차 개선된다. - 검증 데이터 사용
훈련 데이터를 더 작은 훈련 데이터와 검증 데이터로 나누어 모델의 성능을 평가한다.
이를 통해 하이퍼파라미터를 조정하거나 과적합을 감지할 수 있다.
검증 데이터는 일반적으로 훈련 데이터의 10~20%를 차지한다. - 테스트 데이터 사용
훈련이 완료된 모델의 성능을 테스트 데이터로 평가한다.
이 과정에서 모델이 새로운 데이터에 대해 얼마나 잘 일반화하는지 확인할 수 있다. 테스트 데이터에 대한 성능 지표는 모델의 최종 성능을 결정한다.
마무리
머신러닝 모델이 훈련 데이터와 테스트 데이터를 사용하여 최적화되고 일반화 성능을 평가한다.
쉽게말해 훈련 성과를 테스트로 판단하는 것이다.
'Machine Learning' 카테고리의 다른 글
RSM/Model Evaluation/ MAR,MARR MaxAR,MaxARR (0) | 2023.04.14 |
---|---|
RSM/Model Evaluation/ R2.R-squared 결정 계수 (0) | 2023.04.14 |
RSM/DoE/Fractional Factorial Design (FFD) 부분 요인 실험 (0) | 2023.04.14 |
RSM/Formulation 비선형 회귀 모델 구축 (0) | 2023.04.14 |
RSM/Formulation 선형 회귀 모델 구축 (0) | 2023.04.14 |