반응형
목차
개요
이번 포스트에서는 RSM방법론 중 2번째 프로세스인 Formulation 의 회귀모델이 선형인 경우에 대해 알아본다.
이 방법은 회귀 분석에 사용되는 가장 일반적이고 간단한 기법으로 회귀 계수를 추정하기 위해 최소자승법을 사용하고, 이를 통해 새로운 데이터에 대한 예측을 수행할 수 있다.
Formulation
데이터를 사용하여 문제를 정의하고, 이를 최적화하는 과정을 말한다.
여기서는 회귀 문제를 고려하고 있으며, 회귀 계수(β)를 추정하여 선형 회귀 모델을 생성하는 것이 목표
또한 이 포스팅에서는 1차 선형 회귀에 대해서만 다룰것이다.
- 문제 정의
회귀 문제에서는 주어진 입력 변수(설명 변수)와 출력 변수(목표 변수) 사이의 관계를 모델링하기위해 선형 회귀 모델을 고려할 수 있다.
yi = β0 + β1 * xi1 + ... + βk * xik + εi
여기서 i는 샘플 인덱스, yi는 목표 변수, xi는 설명 변수, β는 회귀 계수, εi는 오차 - 목표 함수
회귀 모델의 성능을 측정하기 위해 손실 함수(Loss Function)를 사용합니다. 여기서는 제곱 오차(squared error)를 최소화하는 방식을 이용하려고 한다.
L(β) = Σ(yi - (β0 + β1 * xi1 + ... + βk * xik))^2 - 최적화
목표 함수를 최소화하는 베타 값을 찾기 위해 베타에 대한 편미분을 수행한다.
∂L(β) / ∂βj = 0 (j=0, 1, ..., k)
이렇게 얻은 1+k개의 방정식은 n개의 샘플 데이터에 대한 overdetermined system
이 문제를 해결하기 위해 최소자승법(least squares method)을 사용하여 최적의 해를 찾는다. - 최소자승법
최소자승법은 행렬 표기법을 사용하여 다음과 같이 표현할 수 있다.
X^T * X * β = X^T * y
X는 n x (1+k) 차원의 설계 행렬
β는 (1+k) x 1 차원의 회귀 계수 벡터
y는 n x 1 차원의 목표 변수 벡터
행렬 X^T * X는 invertible하다고 가정할 때, 이 방정식의 해는 다음과 같이 구할 수 있다.
β_hat = (X^T * X)^(-1) * X^T * y
이렇게 구한 β 값으로 선형 회귀 모델을 구성할 수 있으며, 이 모델을 사용하여 새로운 데이터에 대한 예측을 수행할 수 있다. - 오차벡터 구하기
위의 식에서의 X^T를 n*1의 error를 가지는 식으로 표현이 가능한데
e = y - y_hat
여기서 y는 n x 1 차원의 목표 변수 벡터이고, y_hat은 n x 1 차원의 예측 값 벡터이다.
예측 값은 설계 행렬 X와 회귀 계수 벡터 β를 곱하여 구할 수 있습니다.
y_hat = X * β
따라서 오차 벡터 e는 다음과 같이 표현할 수 있습니다.
e = y - X * β
이제 목적 함수를 최소화하기 위해 오차 벡터 e의 제곱합을 고려해야 합니다. 이를 수식으로 표현하면 다음과 같습니다.
L(β) = e^T * e = (y - X * β)^T * (y - X * β)
'Machine Learning' 카테고리의 다른 글
RSM/DoE/Fractional Factorial Design (FFD) 부분 요인 실험 (0) | 2023.04.14 |
---|---|
RSM/Formulation 비선형 회귀 모델 구축 (0) | 2023.04.14 |
RSM/Design of Experiment(DoE) 실험 설계 프로세스 (0) | 2023.04.13 |
Optimaization/ Karush-Kuhn-Tucker, KKT 카루시-쿤-터커 조건 (2) | 2023.04.09 |
Optimaization/ Lagrange multiplier 라그랑지안 승수법 (0) | 2023.04.09 |