[ R : Regression Analysis 회귀분석 ]패키지 설치 및 로딩하기 Show
Regression Analysis 회귀분석통계학 꽃 중의 꽃!
선형 회귀분석(Linear Regression Analysis)단순선형 회귀분석(Simple Linear Regression Analysis)종속변수 : 1개 : 양적 자료, y (확장되면 종속변수가 많아짐) 예제 데이터: cars (R에 내장된 데이터)
회귀분석 결과의 해석1단계. 회귀모형은 타당한가?
결론: 유의확률이 1.49e-12(=0.000)이므로 유의수준 0.05에서 회귀모형은 통계적으로 타당하다. 2단계. 독립변수는 종속변수에게 영향을 주는가?조건: 1단계의 결론이 대립가설이어야 함
결론: 유의확률이 0.000 이므로 유의수준 0.05에서 독립변수는 종속변수에게 통계적으로 유의한 영향을 주는 것으로 나타났다. 3단계. 독립변수는 종속변수에게 어떠한 영향을 주는가?
beta1에 대한 회귀계수(Coefficient of Regression) : 3.932 독립변수의 기본단위가 1 증가하면, 종속변수는 약 3.932 정도 증가시키는 영향을 준다 4단계. 독립변수가 종속변수의 다름을 어느 정도 설명하고 있는가?(회귀모형의 설명력 = 독립변수의 설명력)
결정계수(Coefficient of Determination) : SSR(독립변수 때문에 생긴 다름) / SST(Y의 다름) 회귀모형의 설명력(독립변수의 설명력)은 약 65.1% 정도이다. 5단계. 예측(Prediction)
결과: speed가 200일 때, dist는 769 feet이다(점추정). 실제로는 +-를 넣어서 구간추정 시행.
y의 예측값은 beta0의 추정치(-17.5791) +
beta1의 추정치(3.9324 * speed)
다수 값 예측을 원할 때 cars 데이터를 training, test data로 나눈 후 분석
1단계. 회귀모형은 타당한가?
결론: 유의확률이 0.000이므로 유의수준 0.05에서 회귀모형은 통계적으로 타당하다. 2단계. 독립변수는 종속변수에게 영향을 주는가?
결론: 유의확률이 0.000이므로, 유의수준 0.05에서 독립변수는 종속변수에게 통계적으로 유의한 영향을 주는 것으로 나타났다. 3단계. 독립변수는 종속변수에게 어떠한 영향을 주는가?
beta1에 대한 회귀계수(Coefficient of Regression) : 4.173 = 회귀계수에 대한 추정치
4단계. 독립변수가 종속변수의 다름을 어느 정도 설명하고 있는가?
Multiple R-squared는 0 ~ 1 사이의 값을 가진다. 5단계. 예측(Prediction)
MSE 구하기MSE(평균오차제곱합): 값들이 각각의 그룹의 평균에서 얼마나 떨어져 있는지 확인하는 값(=분산)
R^2의 쓰임새: 모형평가 2. 다중선형 회귀분석(Multiple Linear Regression Analysis)종속변수 : 1개 : 양적 자료
[다중선형] 예제 데이터 : attitude
1단계. 회귀모형은 타당한가?
결론: 유의확률이 0.000이므로 유의수준 0.05에서 회귀모형은 타당하다. 2단계. 각각의 독립변수는 종속변수에게 영향을 주는가?
결론: complaints를 제외한 독립변수는 종속변수에 영향을 주지 않는다. 3단계. 각각의 독립변수는 종속변수에게 어떠한 영향을 주는가?
해석: 다른 독립변수가 고정되어 있을 때(다른 독립변수들은 변하지 않을 때), complaints의 기본 단위가 1증가하면, rating이라는 종속변수를 약
0.613 정도 증가시킨다. 4단계. 회귀모형의 설명력 = 독립변수들의 설명력
결정계수(R-Squre)의 문제점 수정된 결정계수(Adjusted R-Square) 5단계. 예측(Prediction)
독립변수가 모두 5일 때 종속변수(rating)의 결과값: 14.605 다중선형 회귀분석에서 고려해야 할 사항(1) 변수선택최종 모형에 어떤 독립변수들로 구성할 것인가?
전진선택방법(Forward Selection Method) 후진소거방법(Backward Elimination Method) 단계선택방법(Stepwise Selection Method)
결론: 결과가 같고, AIC가 가장 적은 Backward Elimination Method와 Stepwise Selection Method 선택.
결과 해석
회귀모형 평가기준 (2) 더미변수(Dummy Variable)
[더미변수] 예제 데이터 : iris
iris.model 결과 해석해보기. (3) 다중공선성(Multicollinearity)
결과: 하나 빼고 다 10을 초과하기 때문에 이 모델은 회귀분석을 쓸 수 없음. (4) 독립변수들의 영향력 크기의 비교최종 모형에서 2개 이상의 독립변수가 종속변수에게 영향을 준다면, 어떤 독립변수가 가장 큰 영향을 줄까?
결론: Petal.Length가 종속변수에 가장 큰 영향, 그 다음은 Species.virginica 에러(Error = 입실론)에 대한 가정
1. 정규성 가정
결론: 유의확률 0.025이므로 유의수준 0.05에서 정규성 가정이 깨짐 2. 독립성 가정
D-W 통계량이 2에 가까우면 자기상관이 없음(각각 독립), 2에서 멀어지면(0 or 4) 자기상관이 있다(각각 독립이 아니다) 3. 등분산성 검정
결론: 유의확률이 0.397이므로 유의수준 0.05에서 등분산성 만족 4. 에러에 대한 전반적인 가정 검정
|