회귀분석에서 회귀계수는 유의하지만 절편이 유의하지 않다면..?

1. 문제

 

회귀분석을 수행할 때 회귀계수는 유의하더라도 절편이 유의하지 않다면 어떻게 해야할까?

 

 

intercept가 유의하지 않고 회귀계수가 유의하니까 추정된 회귀식을

 

y = 1.5295x라고 적어야할까?

 

아니면 y = 1.5295x + 6.4095라고 적어도 괜찮은 걸까?

 

정답은 후자다. 절편을 아무 근거없이 함부로 제거하면 안된다

 

2. 절편은 어떤 의미를 가지는가?

 

y = a+bx라는 회귀식에서 절편 a는 어떤 의미를 가질까?

 

절편이라는 것은 설명변수의 위치에 의존하게 된다.

 

'설명변수 x=0일 때  반응변수 y의 값이 상수 a와 같다'

 

설명변수 x가 0일때라는 점에서 절편이 갖는 의미가 생각보다 중요하지 않다

 

설명변수 x가 0일때 의미없다면 절편도 아무런 의미를 갖지 않게 된다.

 

예를 들어 생각해보면

 

IQ와 나이에 따른 대학생들의 성적을 조사하고자 한다.

 

성적은 0에서 100까지 분포하고 IQ는 평균 100, 표준편차 15를 따르며 나이는 18세 이상에서 분포한다.

 

이 때, 성적 = a + b*IQ + c*나이로 적합될텐데 IQ와 나이가 0일 때 예측된 성적은?? a가 될거다

 

그런데 IQ가 0이고 나이가 0인 것은 무슨 의미를 가지는것인가??

 

이런 것은 데이터에서도 존재할리 없고 말이 안되는 부분이다. 대부분 절편은 큰 의미를 가지지 않는다

 

 

3. centering

 

설명변수를 centering하면 회귀계수가 변하지 않고도 절편이 유의해질 수가 있다

 

> x <- c(1,2,3)
> y <- c(2.9,4.8,6.9)
> summary(lm(y ~ x))

Call:
lm(formula = y ~ x)

Residuals:
       1        2        3 
 0.03333 -0.06667  0.03333 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.86667    0.12472   6.949   0.0910 .
x            2.00000    0.05774  34.641   0.0184 *

 

위와 같은 경우 절편이 유의하지 않고 데이터에 존재하지 않는 x=0은 의미가 없다

 

> cx <- x - mean(x)
> summary(lm(y ~ cx))

Call:
lm(formula = y ~ cx)

Residuals:
       1        2        3 
 0.03333 -0.06667  0.03333 

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
 (Intercept)  4.86667    0.04714  103.24  0.00617 **
 cx           2.00000    0.05774   34.64  0.01837 *

 

반대로 설명변수를 centering하여 x대신에 x-E(x)를 설명변수로 만들면

 

x=mean(x)일때 y의 기댓값인 절편 4.87은 통계적으로 유의하다

 

추가로 회귀계수가 변하지 않는다

 

 

4. 그렇다면 중요하지 않은 절편은 제거해도 되는 것인가?

 

절편을 제거하면 모델 자체가 달라지는 것이다

 

회귀분석을 하면 '절편이 있는 회귀분석'과 '절편이 없는 회귀분석'으로 나뉜다는 것은 잘 알고 있을 것이다

 

대표적으로 절편이 없는 회귀분석에서는 결정계수가 $\frac{SSR]{SST}$로 구해지지 않는다

 

https://deepdata.tistory.com/2?category=894503 

 

결정계수에 대한 오해

1. 결정계수에 대한 오해 결정계수(coefficient of determination) $R^2$은 많은 교재에서나 제곱이라는 그 모습 $R^2$때문에 0이상 1이하라고 오해하기 쉬운데 사실 결정계수는 음수일 수 있다 2. 제곱합 모

deepdata.tistory.com

 

 

절편을 제거한다는 것은 모든 설명변수가 0일때 반응변수의 기댓값이 0이라는 뜻이 되는데... 이러한 가정에 부합하는가?

 

혹은 이러한 가정에 부합하지 않은가?

 

절편이 큰 의미를 갖지는 않지만 그래서 절편을 제거해야할까? 그렇지는 않다.

 

모델링할때 데이터의 범위라든지 가정이라든지 여러 변수를 생각을 하면서 모델링을 해야한다는 것이다.

 

기계적으로 유의하지 않으니까 제거하자... 유의하니까 남겨두자... 이렇게 하면 안된다는 뜻

 

 

위와 같은 경우 결정계수가 0.464로 낮은편이라 절편이 유의하지 않아서 절편을 제거해보면

 

 

결정계수가 0.9543으로 확증가하여 절편을 제거하는 것이 좋은 판단이다.

 

 

절편이 유의하지 않아서 절편을 제거하고 모델을 적합시켜보면 회귀계수가 유의하지 않게되는 현상이 발생할 수 있다

 

예시는 못찾겠다 하하

 

 

 

참고

 

https://www.researchgate.net/post/In_multiple_regression_if_the_constant_is_not_significant_but_the_other_variables_are_in_the_coefficient_table_what_does_this_mean2

 

In multiple regression, if the constant is not significant but the other variables are (in the coefficient table), what does thi

Read 10 answers by scientists to the question asked by Selin Yildizoglu on Aug 27, 2015

www.researchgate.net

 

https://stats.stackexchange.com/questions/99267/significance-of-regression-intercept-r-lm-model

 

Significance of Regression Intercept (R lm model)

Question: Having performanced a linear regression in R with the lm function, I'm not sure how to interpret the results for the Intercept (as shown below). It seems the probability of the interce...

stats.stackexchange.com

 

http://support.sas.com/kb/23/136.html

 

23136 - Understanding an insignificant intercept and whether to remove it from the model

 

support.sas.com

 

TAGS.

Comments