1. 결정계수에 대한 오해
결정계수(coefficient of determination) R2R2은 많은 교재에서나 제곱이라는 그 모습 R2때문에 0이상 1이하라고 오해하기 쉬운데 사실 결정계수는 음수일 수 있다

2. 제곱합
모든 독립변수 x에 대하여 종속변수 y를 가집니다.
가장 적합한 회귀직선을 그려 x의 값에 대하여 y의 값을 예측하고자 합니다.
2-1) 잔차제곱합
y의 예측값을 ˆy 이라고 한다면 회귀직선이 예측한 값과 실제 y값의 차이를 이용해 error를 계산할 수 있습니다.
이러한 차이 error를 제곱하여 더한 것을 잔차제곱합이라 부르고 보통 SSE라고 표현합니다.
SSE=∑(y−ˆy)2
2-2) 전체제곱합
다음으로 실제 y의 평균값을 계산할 수 있습니다. 이것을 ˉy라고 씁니다.
우리가 ˉy를 그린다면 상수이기 때문에 데이터를 통과하는 수평선으로 그려집니다.
실제 y값으로부터 수평선과의 차이를 제곱하고 더한다면 전체제곱합이라고 부르고 SST라고 보통 씁니다.
SST=∑(y−ˉy)2
2-3) 회귀제곱합
예측값 ˆy 과 평균값 ˉy 의 차이를 제곱하고 더할 수 있습니다. 이것을 회귀제곱합이라고 부르고 SSR이라고 씁니다.
SSR=∑(ˆy−ˉy)2
3. 결정계수의 정의
주어진 데이터를 설명하는 가장 단순한 선형 모형은 데이터의 mean value인 ˉy 로 전체 데이터를 설명하는 것입니다.
그럴 경우 모든 데이터의 예측값은 ˆy=ˉy 이므로
전체제곱합 SST=∑(y−ˉy)2 와 잔차제곱합 SSE=∑(y−ˆy)2는 동일하여 SST = SSE가 됩니다.
따라서 기준이 되는 모형의 SSESST=1이 됩니다.
결정계수란 내가 적합시킨 선형모형이 이런 mean value 모형보다 얼마나 데이터의 분산을 잘 설명하느냐로 계산됩니다.
이를 수학적으로 표현하면
R2=1−SSESST
로 구해집니다.
전항인 1은 mean value모형의 SSESST이고 후항은 적합시킨 선형모형의 SSESST가 됩니다.
그래서 기준모형인 y=ˉy와 적합시킨 선형모형 y=ˆα+ˆβx+ε의 SSESST를 비교하여 얼마나 잘 설명하는지를 수학적으로 나타냅니다.
4. 제곱합의 분해
전체제곱합 SST=∑(y−ˉy)2에서 (y−ˉy)2안에 ˆy을 더하고 빼면
SST=∑(y−ˆy+ˆy+ˉy)2
를 얻습니다.
이 식을 정리하면 다음과 같습니다.
SST=∑(y−ˆy)2+∑(ˆy−ˉy)2+2∑(y−ˆy)(ˆy−ˉy)
그런데 여기서 많은 경우 오해하는 부분은
∑(y−ˆy)(ˆy−ˉy)=0
이 항상 성립하여
SST=∑(y−ˆy)2+∑(ˆy−ˉy)2=SSE+SSR
로 분해된다는 점이다.
그런데 사실
∑(y−ˆy)(ˆy−ˉy)=0이 항상 성립하지는 않는다. 왜 그런지 생각해보자.
4-1) 절편이 있는 회귀분석
일반적으로 절편이 있는 회귀모형
y=α+βx+ϵ에 대하여 최소제곱법에 의해 회귀계수를 추정하면 다음과 같다.
ˆα=ˉy−ˆβˉx
ˆβ=∑(x−ˉx)(y−ˉy)∑(x−ˉx)2
잔차(residual) y−ˆy=e라고 표현하고, ˆy=ˆα+ˆβx이므로 ∑(y−ˆy)(ˆy−ˉy)에 ˆα=ˉy−ˆβˉx을 대입하면 다음과 같다.
∑(y−ˆy)(ˆy−ˉy)=∑e(ˆα+ˆβx−(ˆα+ˆβˉx))=ˆβ∑e(x−ˉx)
정규방정식(normal equation) ∑e=0 , ∑ex=0을 이용하면
ˆβ∑ex−ˆβˉx∑e=0
그러므로 절편이 있는 선형회귀분석 y=α+βx+ϵ에서는 ∑(y−ˆy)(ˆy−ˉy)=0이 성립하여
SST=∑(y−ˆy)2+∑(ˆy−ˉy)2=SSE+SSR이 항상 성립한다
4-2) 절편이 없는 회귀분석
이번엔 절편이 없는 회귀분석 y=βx+ϵ을 가정하면
먼저 정규방정식(normal equation)은 오차제곱합 ∑(y−βx)2=0을 β 로 미분하여 −2∑(y−βx)x=0으로부터
∑(y−ˆβx)x=∑ex=0을 얻는다.
그러므로
∑(y−ˆy)(ˆy−ˉy)=∑e(ˆβx−ˉy)=ˆβ∑ex−ˉy∑e=−ˉy∑e
이다.
4-3) 차이점
가장 중요한 차이점은 잔차의 합
∑e=0
이라는 보장이 없다
그래서 절편이 없는 회귀모형에서는
SST=∑(y−ˆy)2+∑(ˆy−ˉy)2=SSE+SSR이 반드시 성립하지는 않는다.
물론 절편이 없더라도 잔차의 합 ∑e=0이 된다면 성립할 수 있다.
5. 결정계수는 언제 음수가 될 수 있는가
따라서 결정계수의 정의
R2=1−SSESST로부터
절편이 있는 회귀모형이라면 반드시 SST=SSE+SSR이므로 많은 사람들이 알던 공식으로
R2=1−SSESST=SSRSST 바꿀 수 있다.
이 때 R2=SSRSST=∑(ˆy−ˉy)2∑(y−ˉy)2
이므로 0≤R2≤1
이 성립한다.
그러나 절편이 없는 회귀모형이라면
SST=SSE+SSR+2∑(y−ˆy)(ˆy−ˉy)이므로 전체를 SST로 나눈다면
1=SSESST+SSRSST+2∑(y−ˆy)(ˆy−ˉy)SST에서
1−SSESST=SSRSST+2∑(y−ˆy)(ˆy−ˉy)SST이므로
R2=SSRSST+2∑(y−ˆy)(ˆy−ˉy)SST을 얻는다.
그러므로
2∑(y−ˆy)(ˆy−ˉy)<0이면 결정계수는 음수를 가질 수 있다.
6. 예를 들어서 생각해보기
결정계수는 앞에서 설명한 것처럼 mean value 모형 y=ˆy보다 적합시킨 회귀모형이 얼마나 데이터를 잘 설명하느냐를 나타낸다.
특히 2∑(y−ˆy)(ˆy−ˉy)<0이면 결정계수 R2이 음수를 가질 수 있다.
그 말은
(y−ˆy)<0,(ˆy−ˉy)>0이거나 (y−ˆy)>0,(ˆy−ˉy)<0
이면 결정계수 R2이 음수를 가진다는 뜻이다.

7. 핵심요약
1) 결정계수는 R2=SSRSST=1−SSESST가 아니라 R2=1−SSESST이다.
이 식은 가장 단순한 모형 mean value y=ˉy보다 적합시킨 모형 y=α+βx+ϵ 이 데이터를 얼마나 잘 설명하느냐를 나타낸다.
2) 제곱합을 분해하면 SST=SSE+SSR이 아니라 SST=∑(y−ˆy)2+∑(ˆy−ˉy)2+2∑(y−ˆy)(ˆy−ˉy)이다.
SST로 나누면 R2=SSR+2∑(y−ˆy)(ˆy−ˉy)SST이다.
3) 절편이 있는 회귀모형 y=α+βx+ϵ을 가정한다면 2∑(y−ˆy)(ˆy−ˉy)=0이 성립하지만 절편이 없는 회귀모형 y=βx+ϵ을 가정한다면
2∑(y−ˆy)(ˆy−ˉy)=0이 반드시 성립하지 않는다
왜냐하면 절편이 없는 회귀모형의 경우 잔차의 합 ∑e=0이 수학적으로 보장되지 않는다.
4) 그래서 결정계수 R2=SSR+2∑(y−ˆy)(ˆy−ˉy)SST는 음수일 수 있다.
적합시킨 모형이 mean value보다 설명을 못해서 2∑(y−ˆy)(ˆy−ˉy)<0이면 R2<0일 수 있다.
5) 일반적으로 단순선형회귀분석에서 설명변수와 종속변수의 상관계수의 제곱이 결정계수와 같다고 알려져있는데 역시 절편이 있어야만 성립한다.
8. 참조
https://stats.stackexchange.com/questions/183265/what-does-negative-r-squared-mean
What does negative R-squared mean?
Let's say I have some data, and then I fit the data with a model (a non-linear regression). Then I calculate the R-squared (R2). When R-squared is negative, what does that mean? Does that mean my
stats.stackexchange.com
https://en.wikipedia.org/wiki/Coefficient_of_determination
Coefficient of determination - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search Indicator for how well data points fit a line or curve Ordinary least squares regression of Okun's law. Since the regression line does not miss any of the points by very much, the R2 o
en.wikipedia.org
'다시보는 통계학' 카테고리의 다른 글
분포함수에 관한 중요한 정리(theorem) (0) | 2021.12.07 |
---|---|
누적확률분포함수(cumulative probability distribution)에 대하여 (0) | 2021.12.06 |
확률(probability)과 가능도(likelihood)는 어떻게 다를까? (0) | 2021.11.18 |
p-value에 대한 오해 (0) | 2021.10.06 |
머신러닝 모델에서의 bias와 variance에 대하여 (0) | 2021.10.06 |