다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

Multiple regression analysis 에서 Effect Size 계산

이일현(통계학 박사)

스탯에듀 통계연구소

Meta 분석에서 Multiple Regression Analysis 자료를 이용한 Effect Size 계산하는 방법에 대해 알아보겠습니다. 

회귀분석 자체에서 Effect size 계산 수식은 다음과 같이 결정계수를 이용한 방법입니다. 

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

하지만 이는 단순회귀분석에서만 가능하기 때문에 다중회귀분석에서는 활용할 수 없다는 문제가 있습니다. 

물론 위계적 회귀분석으로 해당 변수만 마지막 위계에 추가되었다면 결정계수 증가분으로 가능하기는 하겠지만 제약이 많겠죠. 

따라서 실제 다중회귀분석에서는 Effect size 를 계산하는 공식 자체는 없습니다. 

인과관계의 자료의 Meta 분석의 경우 현재까지는 상관계수(Correlation Coefficient)를 이용하여 Effect Size 를 계산하는 방법이 사용되고 있습니다. 하지만 Correlation Analysis 결과를 이용한 Effect Size 는 통제변수의 영향을 통제한(보정한 adjusted) 효과크기를 계산할 수 없기 때문에 실제 효과보다도 과대하게 나오는 문제가 있습니다. 

회귀분석 자료의 Meta Analysis 뿐만 아니라 Meta Regression, Meta Path Analysis, Meta SEM 과 같은 방법론이 사용되는 이때에 다중회귀분석(경로분석, 구조방정식) 자료를 이용한 Effect Size(ANCOVA, Repeated Measure ANOVA(반복측정 분산분석)에서도 활용) 를 계산할 필요성이 있습니다. 

Effect Size 의 계산 방법으로 가장 많이 알려진 방법은 t-test 자료에 대하여 

실험군과 대조군의 평균, 표준편차, 표본수를 이용한 위의 수식입니다. 

하지만 Effect Size 계산시 각 집단의 평균, 표준편차, 표본수가 모두 제시되지 않은 경우가 종종 나오며 이를 위해 여러 가지 Effect Size 수식이 존재합니다. 

t 통계량과 각 집단의 표본수를 아는 경우 다음의 식을 이용하면 Effect Size 를 계산할 수 있습니다. 

t-test 와 ANOVA, 회귀분석(regression analysis)은 모두 Linear Model 입니다. 

그리고 동일한 자료로 3 가지 분석을 하게 되면 그 결과는 동일합니다. 

t-test 와 ANOVA, 회귀분석(regression analysis) 결과의 p-value 는 동일합니다.

그럼 당연히 t-test 에서 ES 를 계산한 결과와 ANOVA, 회귀분석에서 각각 계산하면 모두 동일한 값을 가지게 되는 것이죠. 

문제는 t-test 자료에서는 실험군, 대조군 각각의 n 이 필요하므로 직접 t 통계량을 이용할 수 없죠. 


하지만 ANOVA 의 F 통계량을 이용하면 그 문제를 해결할 수 있습니다. 

결국 위의 수식을 이용(ANCOVA, Repeated Measure ANOVA 의 경우 F 통계량을 이용)하면 다중회귀분석에서도 Effect size 를 계산할 수 있습니다. 

다중 회귀분석에서 t 통계량과 전체 표본수 n  이 있는 경우는 위의 수식을 이용합니다. 

하지만 일부 논문에서는 t 통계량을 제시하지 않는 경우가 있습니다. 이때에는 비표분화 계수 B와 표준오차인 SE 를 이용하면 됩니다. 

회귀분석에서 독립변수의 t 통계량은 B와 SE 로 계산이 됩니다. 

다중 회귀분석에서 B, SE, n 이 제시된 경우나 t, n 이 제시된 경우 위의 수식을 이용하여 Effect size 를 계산합니다. 

회귀분석 자료의 Meta 분석은 Effect Size 인 상관계수(correlation coefficient) 로 변환하여 사용합니다. 

다만 상관계수의 경우 표본수에 민감한 문제가 있습니다. 표본수가 큰 경우 상관계수가 크게 나오게 되어 Effect Size 가 과대해질 수 있습니다. 따라서 상관계수 자체보다는 Fisher's z transformation 한 ZCOR 을 이용하여 Meta Analysis 를 하는 것이 좋습니다. 

이상으로 Multiple Regression Analysis(ANCOVA, Repeated Measure ANOVA) 에서 Effect Size 를 이용하는 방법에 대해 알아봤습니다. 

Effect Size 계산은 아래의 링크에서 EasyFlow Statistics macro 를 이용하여 계산할 수 있습니다. 

EasyFlow Statistics - EasyFlow Statistics Macro : EXCEL macro Ver 1.4 (statedu.com)

http://doi.or.kr/10.22934/StatEdu.2020.02

http://doi.org/10.22934/StatEdu.2020.02

Multiple regression analysis 에서 Effect Size 계산.pdf

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

다중회귀분석은 2개 이상의 독립변수들과 1개의 종속변수의 관계를 분석하는 방법이고 간격척도 및 비율척도의 연속형 자료로 분석합니다. 실제 석사·박사 학위논문이나 기업에서는 보통 다중회귀분석이 많이 사용되고, 순서 및 명목척도일 경우 더미변수로 변화시켜 사용합니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

다중회귀식은 다양한 추정방법(단계선택, 전진선택, 후진제거, 제거변수, 동시입력)이 있는데 대표적으로 동시입력방식과 단계선택방식이 있습니다.

동시입력방식은 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석하는 방법입니다. 다른 독립변수들이 통제된 상황에서 특정 독립변수의 영향력을 알 수 있고, 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있습니다.

단계선택방식은 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키는 방식입니다. 설명력이 높은 변수 순으로 회귀식에 포함되며, 종속변수를 설명하는데 있어서 설명력이 어느 정도 이상 되는 변수들만 구성된 회귀식을 발견하는데 유용합니다.

예를 들어보겠습니다.

A사의 무선 로봇 청소기의 요인들이 고객 만족도와 어떤 인과관계가 있는가를 알아보기 위해 213명의 고객을 대상으로 설문을 받고 동시입력방식의 다중회귀분석을 진행해 보았습니다.

무선 로봇 청소기의 디자인, 편리성, 기능성, 품질이 만족도에 영향을 미치는가?

독립변수(x) : 디자인, 편리성, 기능성

종속변수(y) : 만족도

단순회귀분석과 같이 다중회귀분석에서도 독립변수들의 유의성 여부를 확인하기 전에 회귀모형의 적합도 및 설명력을 확인해야 합니다.

모형요약 표를 보면 결정계수인 R 값이 0.771로 약 77.1%를 3개의 독립변수가 설명해 주는 것이 나타났습니다. 수정된 R2 값이 0.767로 결정계수와 큰 차이가 없어 안정적이라고 할 수 있어요. R2(R제곱)은 불필요한 독립변수가 추가되어도 감소하지 않고, 단순 및 다중회귀분석 모두 표기됩니다. adjR2(수정된 R제곱)은 불필요한 독립변수가 추가되면 감소하고, 다중회귀분석에서만 표기 됩니다.

잔차의 독립성을 검정하는 Durbin-Watson 통계량 값을 보면 1.889로 2에 가까워서 자기상관없이 잔차들 간에 독립적이라고 할 수 있습니다. 잔차의 독립성이란 회귀분석에서 나타나는 오차가 규칙 없이 랜덤하게 나타난다는 것입니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

Durbin-Watson 통계량 : 잔차가 독립성을 가진다는 의미는 자기상관이 없다는 것을 의미합니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

위 그림과 같이 가운데 2값을 가지면 완전한 독립이고 1~3 사이의 값을 가지면 독립이라고 판단합니다. 그런데 통계량 값이 0(양의 자기상관)이나 4(음의 자기상관)에 가까우면 자기상관이 있다고 판단을 합니다.

다음으로 회귀모형의 유의성을 검증하는 ANOVA(분산분석)을 보겠습니다. 아래 분산분석 표와 같이 95% 신뢰수준에서 유의확률 값이 0.000으로 0.05보다 작기 때문에 대립가설을 채택하고 회귀모형이 유의하다고 판단할 수 있습니다.(P<.005)

회귀모형 유의성 가설

H0: 회귀모형이 유의하지 않다.

H1: 회귀모형이 유의하다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

위 결과와 같이 회귀모형이 유의한 것으로 나타났으니 이제 회귀계수가 유의한지 확인하겠습니다. 회귀계수가 정(+)적인지 부(-)적인지 살펴봐야 합니다.

최종 회귀모형은 만족도(y)=11.582 + 0.740×디자인 + 0.243×편리성 – 0.002×기능성으로 나타났습니다. 그리고 3개의 독립변수를 보면 디자인과 편리성은 P=0.000(P<001)으로 통계적으로 유의하고 정(+)적인 영향을 미치는 것으로 나타났고, 기능성은 P=0.733으로 유의하지 않게 나타났습니다. 기능성이 유의하였다면 부(-)적인 영향을 미친다고 할 수 있겠죠?

해석을 하자면 디자인이 1점 높아지면 만족도는 0.74점 높아지고, 편리성이 1점 높아지면 만족도가 0.243점 높아진다고 판단할 수 있습니다.

계수에는 표준화계수와 비표준화계수가 있어요. 비표준화계수는 독립변수가 1단위 증가할 때 종속변수가 얼만큼 변화하는가를 의미합니다. 표준화계수는 점수의 분포 정도를 계산한 것이므로 상대적으로 영향력을 비교할 수 있습니다. 표준화계수 값이 큰 변수일수록 영향력이 크다고 판단합니다. 만족도에 있어 디자인의 표준화계수가 0.660으로 편리성보다 영향력이 큰 것을 알 수 있습니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

그리고 중요한 것은 다중회귀분석은 단순회귀분석과 달리 독립변수가 2개 이상이므로 다중공선성을 살펴봐야 해요. 다중공선성은 독립변수 간 얼만큼 유사한가인데 독립변수 간 너무 유사하면 서로의 영향력을 감소시키고 영향력이 불필요하게 나뉘는 것입니다. 유의하게 나올 변수 임에도 유의하지 않게 나올 수 있다는 것입니다.

다중공선성을 판단하는 VIF(분산팽창지수)의 경우 위 표와 같이 가장 큰 값이 1.660입니다. 10미만이면 다중공선성이 없다고 판단하는데 즉, 위 3개의 독립변수들은 모두 독립적이라고 판단되어 다중공선성은 없습니다.


이제 위 예로 다중회귀분석의 단계선택 방식으로 분석해보겠습니다. 아래 표와 같이 단계선택 방식에 의하면 1번 모형은 1개의 독립변수 디자인만 투입되었고, 2번 모형은 독립변수가 디자인과 함께 편리성이 투입되어 2개로 만든 모형이라는 것을 알 수 있습니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

R 제곱은 1번 모형이 0.718, 2번 모형이 0.771로 나타나 2번 모형의 설명력이 1번 보다 높다는 것을 알 수 있습니다. 잔차의 독립성을 검토하는 Durbin-Watson의 통계량은 1.891로 2에 근사하므로 독립성을 충족하였습니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

회귀모형의 유의성을 검정하는 분산분석(ANOVA)을 보면 모두 유의하게 나타났으므로(P<0.001), 본 회귀모형은 유의하다고 할 수 있습니다. 단, 최종모형은 위처럼 2번의 모형을 보는 것입니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

아래 계수표의 결과처럼 최종 회귀 모형의 식은 다음과 같습니다.

만족도(y)= 11.530 + 0.740×디자인 + 0.243×편리성

독립변수인 디자인과 편리성 모두 정(+)적으로 유의하게 나타났습니다. VIF(분산팽창지수)는 1.660으로 다중공선성이 없는 것으로 나타났습니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)

디자인, 편리성, 기능성 3개의 독립변수 중 기능성은 회귀모형에서 제외된 것을 알 수 있습니다.

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)


기업 데이터 통계, 공공기관 데이터 통계, 논문 통계

퀵데이터는 여러분의 성공을 위해 오늘도 함께 하겠습니다~~^^

(주)한국교육데이터

다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)
다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)
다중회귀분석(ANOVA) - dajunghoegwibunseog(ANOVA)