R 다중회귀분석 시각화 - r dajunghoegwibunseog sigaghwa

R 회귀분석, 다중회귀분석

나리 ・ 2018. 4. 12. 17:49

회귀분석 ( linear regression )

: 인과관계, 독립변수가 종속변수에 영향을 미치는 정도를 분석하는 것.

cars 데이터로 분석해보자.

lm()을 사용하여 회귀분석을 할 수 있다.
lm(종속변인~독립변인, 데이터)

Coefficients : 계수
Intercept : 절편 ( -17.579 )
변인 speed의 계수 : 3.932

Error : 잔차 ( 잔차? : 실제 y값과 회귀식에서 x를 넣은 y값의 차이 )

각 계수별로 t검정을 해주는데
H0 : 계수는 상관관계가 없다. ( 기울기가 0이다. )

predict() : 회귀모델의 예측치 생성

x=4일 때 y값을 알려줌. dataframe형태로 넣어야 함.

또 다른 실습

나한테 있는 product데이터를 써보자.

제품 친밀도, 제품 적절성에 따른 제품 만족도 알아보기.

1) 단순 회귀분석

* 참고 - names() : 함수 목록을 확인할 수 있다.

fitted.values() : 모델의 적합값
residuals() : 잔차 ( 실제관측값 - x값을 넣었을 때 나오는 y값 )

시각화
plot() 사용하면 실제 값 점 찍힌거 볼 수 있다.
abline() : 회귀식 선 그려줌.

결과는
summary()로 본다.
분석은 맨 아래 다중회귀분석 사진으로 요약하겠음!!

다중회귀분석

: 여러 개의 독립변수가 한 개의 종속변수에 영향을 미칠 때
이번엔 x1, x2 두개를 독립변수로 지정.

★ 결론 ★

친밀도, 적절성 모두 p-value가 0.05보다 작으므로 H0 기각.
둘 다 제품만족도에 영향을 미친다고 볼 수 있다.

그리고 R-squared는 결정계수인데 독립변수가 종속변수를 설명하는 정도임!
Multiple R-squared와 Adjusted R-squared의 차이는 Adjusted는 가공된(?)거라고 한다..
그래서 보통 Adjusted를 쓴다고 함.
그니까 여기서는 독립변수가 종속변수를 59.5% 설명한다고 보면 됨.

맨 아래 p-value는 회귀모형의 적합도에 대한 p-value이다.
H0 기각이므로 회귀모형이 적합하다고 볼 수 있다.