AI 이론과 개발의 혼재/Implementation 엑셀로 쉽게 해보는 다중회귀분석 (해석방법포함)2020. 6. 1. 회귀분석에 대한 이론을 아직 포스팅 하지는 않았지만,, 엑셀로 간단하게 해보고, 해석해보는 방법에 대해서 한 번 알아보도록 하겠습니다. 간단하게 회귀분석은 왜하는 거야? 라는 질문에 답변을 드리자면,, 예를 들어, 직장인의 회사생활 만족도에 대한 설문조사를 해보았다고 생각해볼게요. "현재 당신의 회사생활 만족도는 몇 점인가요?" 저라면,, 점수를 주기 전에 연봉도 생각해보고 나의 동료/상사, 출퇴근 거리 등등을 고려해서 최종 나의 회사생활 만족도 점수를 결정할 것 같아요. 그럼, 추가로 질문 하나 더 ! "우리 회사 직원들의 회사생활 만족도는 어떻게 높일 수 있을까요?" 가장 회사생활 만족도와 연관이 높은 요인을 찾아서, 그 요인을 개선하는게 제일 효과적이지 않을까요? 다중회귀분석은 회사생활만족도(Y)와 인간관계, 출퇴근거리 등과 같은 여러 요인(X)들과의 관계를 분석할 때 사용할 수 있어요. 여러가지로 할 수 있지만, 저는 지금 엑셀로 후다닥 해야하니까 엑셀에서 한번 해볼께요! [ 준비 과정 ] 1. 엑셀에서 '파일' > '옵션' > '추가기능' 에서 '이동'을 클릭해주세요. 2. '분석 도구'를 체크하고 확인을 눌러주면 기능을 사용할 준비가 된거예요. :) 엑셀 '데이터' 탭에 '데이터 분석' 이 생긴걸 보실 수 있답니다. [다중회귀분석 시작해보기] 1. 준비 데이터는 알고자 하는 값 Y와, 그 Y에 영향을 주고 있는 여러 변수들 X 데이터를 준비해주시구요 '데이터분석'에서 '회귀분석'을 선택하고, 확인을 눌러주세요. 2. 데이터 입력 창이 켜지면, Y축 입력 범위와, X 축 입력 범위를 적는 창이 나와요 :) 저는 Y축에는 '회사생활 만족도'를 그리고 X 축 범위에는 '동료', '회의시간' 등등 회사생활에 영향을 미치는 변수들을 넣어볼께요. 워,,! 엑셀은 총 16개의 X변수만 입력 받을 수 있네요? ㅠㅠ 젠장,, ㅂㄷㅂㄷ;; 저는 변수가 더 많았지만,, 조금 줄여서 ㅜ_ㅜ 생성해보도록 하겠습니다. 3. 결과 확인 '확인'을 누르면 새로운 시트에 이런 결과가 나와요! 4. 해석 이제부터 해석을 한번 해보도록 하겠습니다. * 결정계수 = R Square, 조정된 결정계수 = Adjusted R Square - 실 세계에서는 Adjusted R^2가 좀 더 가깝다고는 하는데, 통계학자들마다 해석방법이 조금씩 다른것 같아요. - 보통, 단일 회귀분석에서는 R^2, 다변량 회귀분석에서는 Adjusted R^2가 더 잘 맞는 경향이 있다고 합니다. - 0.6 (60%) 이상의 값을 가질 때 유의미하다고 봅니다. - 해석방법은, 본 회귀분석은 이 데이터를 설명하는 설명력이 약 9%정도 반영된 것이라고 보면 됩니다. * 유의한 F = Significance F - 0.05보다 클 경우, P-value가 높은 X 변수를 삭제하면서 0.05 미만 값을 충족할 때 까지 회귀분석을 다시 해야해요. - 해당 값이 0.05보다 작을 경우 대립가설을 채택합니다. - 대립가설을 채택한다는 말은 -> 회귀계수가 0이 아니다. -> 독립변수들 중 적어도 하나의 이상의 변수가 종속변수(Y)를 설명하는데 유의하다. 는 뜻입니다. * P-값 = P-value - 어떤 독립변수가 종속변수 (Y)를 잘 설명하는지를 나타내요 - p-value > 0.05 일 경우, 귀무가설을 채택합니다. --> 즉, 이 독립변수는 종속변수에 영향을 미치지 않는다. - p-value < 0.05 일 경우, 대립가설 채택 --> 이 독립변수는 종속변수에 영향을 미친다. |