목차
개요
본 포스팅은 하단의 글을 통해 개념을 숙지하고 와야지 쉽게 이해가 가능하다.
이번 포스트에서는 확률 변수의 선형/비선형 변환에 대해서 알아본다.
대부분 이와함께 선형대수의 기본인 고유값 고유벡터 그에 따른 분해 기저 등을 배우지만 대부분 숙지한 경우가 많아서 포스팅 하지 않겠다. 이 포스팅 또한 CNN에 있어서 기본이 되는 어파인(affine) 변환을 설명하기 위한 basis 일 뿐이다.
linear transformation ; 선형 변환
선형함수 Y
Y = aX + b
여기서 a와 b는 constant. 이 때 Y는 새로운 확률 변수이며, X를 선형적으로 스케일링(scaling), 이동(translation), 회전(rotation) 등의 연산을 통해서 만들어진 것이다.
선형 변환을 통한 새로운 확률 변수 Y의 평균값과 분산
평균값
E(Y) = E(aX + b)
= aE(X) + b
E(X)는 X의 평균값
따라서 선형 변환을 통해 Y의 평균값을 구할 때는 X의 평균값에 대해 선형적으로 변환하고 이동시킨 값을 사용하면 되는 아주 간단한 과정을 거치게 된다.
분산
Var(Y) = Var(aX + b)
= a^2Var(X)
Var(X)는 X의 분산
따라서 선형 변환을 통해 Y의 분산을 구할 때는 X의 분산에 대해 선형적으로 변환한 값을 사용하면 된다.
만약 X가 정규 분포를 따른다면, Y = aX + b도 정규 분포를 따른다. 이 때 Y의 평균값과 분산은 다음과 같이 계산된다.
E(Y) = aμ + b
Var(Y) = a^2 σ^2
μ와 σ^2는 X의 평균값과 분산
non- linear transformation ; 비선형 변환
비선형함수 Y
Y = g(X)
여기서 g는 비선형 함수이다. 이 때 Y는 새로운 확률 변수이며, X를 비선형적으로 로그 변환(log transformation), 제곱근 변환(square root transformation), 지수 변환(exponential transformation)시켜서 만들어진 것이다.
선형 변환을 통한 새로운 확률 변수 Y의 평균값과 분산
평균값
E(Y) = E(g(X))
분산
Var(Y) = Var(g(X))
당연한 말이지만 선형 함수의 평균값이나 분산값과는 달리 비선형 함수는 직접 계산하기 어렵다. 따라서 이 경우에는 근사적인 방법을 사용해야 한다.
예를 들어, 만약 Y = g(X)가 선형 함수가 아니라면 Taylor 전개를 사용하여 근사적인 평균값을 구할 수 있다. Taylor 전개는 함수를 무한히 미분 가능한 다항식으로 근사하는 방법이다. 따라서 Taylor 전개와 비슷한 비선형 함수의 근사에 이용되는 방식을 사용하여 계산이 가능하다.
그렇다고 모든 근사를 위해 사용된 선형 함수가 Taylor 전개라는 말은 아니다.(수업 중에 질문이 나왔었다)
각 변환법의 차이점 및 특징
비선형 변환은 선형 변환에 비해서
- 기댓값(mean)과 분산(variance)의 변화를 예측하기 어렵다.
- 비선형 변환은 확률 변수 간의 독립성을 유지하지 않을 수 있다. (선형은 언제나 독립성 유지)
비선형 변환은
- 데이터의 왜도(skewness)와 첨도(kurtosis)를 조정하여 정규성을 개선하는 데 도움이 될 수 있다.
- 특정 분포에 적합한 비선형 변환을 사용하면 통계적 추론을 용이하게 할 수 있습니다.
'Machine Learning' 카테고리의 다른 글
RV / moment 모멘트; 확률 분포의 특성 (0) | 2023.04.06 |
---|---|
RV / standard random variable[Z-score] 표준 확률 변수 (0) | 2023.04.06 |
RV / 이산&연속형 확률변수 합산 방식 차이, 특징, 평균과 분산 (0) | 2023.04.06 |
Concept/ Random Variables 확률변수 (0) | 2023.04.06 |
Concept/ Unconstrained, constrained optimization 비구속/ 구속 제약 최적화 (0) | 2023.04.05 |