반응형
목차
개요
이번 포스트에서는 RSM방법론 중 3번째 프로세스인 Model Evaluation방식중 가장 많이 쓰이는 R2 결정계수에 대해 알아본다.
SST, SSR, SSE 개념
- SST (Sum of Squares Total)
전체 변동성을 의미하며, 종속 변수(y)의 개별 값이 평균과 얼마나 차이가 있는지의 제곱합
SST = Σ(y_i - ȳ)^2
여기서 y_i는 종속 변수의 i번째 관측값, ȳ는 종속 변수의 평균 - SSR (Sum of Squares Regression)
회귀 변동성을 의미하며, 회귀 모델에 의해 예측된 값이 종속 변수의 평균과 얼마나 차이가 있는지의 제곱합
SSR = Σ(ŷ_i - ȳ)^2
여기서 ŷ_i는 회귀 모델에 의한 i번째 관측값의 예측값 - SSE (Sum of Squares Error)
오차 변동성을 의미하며, 회귀 모델에 의해 예측된 값이 종속 변수의 실제 값과 얼마나 차이가 있는지의 제곱합
SSE = Σ(y_i - ŷ_i)^2
예제로 알아보는 결정계수 개념
SST = SSR+SSE
y_i - ȳ = ŷ_i - ȳ + y_i - ŷ_i
예제)
실제 값 (y) : [2, 4, 6, 8, 10]
예측 값 (ŷ) : [1.5, 4.2, 5.8, 7.6, 10.5]
이 경우, y의 평균은 6입니다. SST, SSR 및 SSE를 계산하면 다음과 같습니다.
SST = (2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2 = 40
SSR = (1.5-6)^2 + (4.2-6)^2 + (5.8-6)^2 + (7.6-6)^2 + (10.5-6)^2 = 39.58
SSE = (2-1.5)^2 + (4-4.2)^2 + (6-5.8)^2 + (8-7.6)^2 + (10-10.5)^2 = 0.42
이제 R^2 값을 계산할 수 있다.
R^2 = SSR / SST = 1 - (SSE / SST) = 1 - (0.42 / 40) ≈ 0.9895
R2를 구하는 방법 또한 위와 같이 회귀변동성을 전체 변동성으로 나눈 값으로 나타낼수 있다는 것을 확인 할 수 있다.
R^2 값이 1에 가까울수록 모델이 데이터를 잘 나타내고 있다는 지표가 되는데, 이 회귀 모델은 결정 계수 R^2 값이 약 0.9895로 데이터의 변동성을 매우 잘 설명하고 있음을 알 수 있다.
이는 모델이 실제 값과 예측 값 사이의 차이를 최소화하는 방향으로 작동하고 있음을 의미한다.
'Machine Learning' 카테고리의 다른 글
RSM/Model Evaluation/ Scatter plot 산점도 (0) | 2023.04.14 |
---|---|
RSM/Model Evaluation/ MAR,MARR MaxAR,MaxARR (0) | 2023.04.14 |
Concept/훈련 데이터(training data)와 테스트 데이터(testing data) 그리고 검증 데이터 (0) | 2023.04.14 |
RSM/DoE/Fractional Factorial Design (FFD) 부분 요인 실험 (0) | 2023.04.14 |
RSM/Formulation 비선형 회귀 모델 구축 (0) | 2023.04.14 |