[5장]ISL with R : 결정계수(R-Squared)
결정계수(R-Squared) 측정
우리가 어떤 예측 모델을 만들었을 때 그 모델의 성능을 평가하는 것은 중요하다. 그리고 모델 성능 평가에서 일반적으로 사용하는 지표는 아래 식 1과 같이 나타낼 수 있는 결정계수(R -Squared)이다.
결정계수(R -Squared)는 모델의 설명력을 나타내며 0에서 1 사이의 값을 가진다. 그리고 1에 가까울수록 모델의 설명력이 높아지고, 0에 가까울수록 모델의 설명력이 낮아진다. 결정계수(R -Squared)는 위 식 1에서 확인할 수 있는 것처럼 SST(Totoal Sum of Squares), SSE(Explained Sum of Squares), SSR(Residual Sum of Squares)로 구성되어 있는데, 이 구성요소만 파악하면 결정계수의(R -Squared) 원리를 알 수 있다.
SST(Totoal Sum of Squares)
SST, SSE, SSR은 아래 그림 1과 같이 표현할 수 있다. SST는 실제값과 평균값의 차이를, SSE는 모델이 예측한 값과 평균 값의 차이를, SSR은 실제값과 모델이 예측한 값의 차이를 나타낸다. 실제 SST, SSE, SSR을 구할 때는 크기를 나타내기 위해서 제곱을 하여 양수로 맞춰주는 과정이 추가된다.
SST는 아래 식 2와 같이 쓸 수 있는데, 그림 1에서 표현된 것처럼 실제값과 평균값의 차이를 제곱한 것이다. 이 값을 데이터의 개수 n으로 나누면 분산이 된다.
SSE(Explained Sum of Squares)
데이터 전체의 분산과 같은 의미를 가진 SST값은 모델로 설명이 되는 부분인 SSE와 설명이 안 되는 부분인 SSR로 나뉜다. SSE는 아래 식 3과 같이 쓸 수 있는데, 모델이 예측한 값과 평균값의 차이를 제곱한 것이다. 만약 모델이 예측한 값인 "y-hat = 실제 y"가 성립한다면, 모델은 전체 SST를 설명한 것이 되고 SST = SSE 가 된다.
SSR(Residual Sum of Squares)
그림 1과 같이 실제 y 값이 모델이 예측한 주황색 실선 위의 y-hat 값과 차이가 나는 부분은 모델로 설명이 안 되는 부분이다. 이 차이를 SSR이라고 하고, 아래 식 4와 같이 실제값과 모델이 예측한 값의 차이를 제곱해서 구한다.
결정계수(R-Squared) 측정의 한계
결정계수(R -Squared)는 테스트 데이터에 대한 설명력만을 제공하며, 모델이 과적합 되었는지 여부에 대한 판단도 불가능하다. 아래 그림 1의 오른쪽 모형은 모든 검은 점에(테스트 데이터) 대한 설명이 가능하다. 따라서 결정계수(R-Squared)는 1일 것이다. 하지만 실제 모델의 운용 중에 하얀색 점의 데이터가 추가된다면, 아래 그림 1의 오른쪽 모형보다 왼쪽 모형이 더 의미 있을 수 있다. 결국 아래 그림 1의 오른쪽 모형은 테스트 데이터에 과적합 되었다고 할 수 있고, 테스트 데이터에 대한 높은 설명력만을 제공한다. 이 상황에서 결정계수(R -Squared)의 수치는 큰 역할을 하지 못 한다고 볼 수 있다.