왜도 첨도 정규성 기준 - waedo cheomdo jeong-gyuseong gijun

왜도, 첨도의 기준

페이지 정보

작성자 논문1번지 연락처 작성일16-12-13 10:17 조회8,556회

본문

오늘은 논문통계를 진행할때 간혹 사용하는 왜도와 첨도에 대한 이야기를 해볼까 합니다.

논문통계를 진행하게 되면 기술통계에서 왜도와 첨도를 구해서 논문에 기재를 하게 되어지는 경우가 있습니다.

분석방법은 spss를 실행후 기술통계 옵션에서 왜도, 첨도를 체크하면 쉽게 수치를 구하실수가 있는데요.

그런데 이 왜도와 첨도 어떤 기준을 보고 제대로 되어진 수치인지 아닌지를 확인할수있는 방법에 대해 오늘 설명을 드릴까 합니다.

왜도(skewness)는 자료의 분포모양이 어느 쪽으로 얼마만큼 기울어져 있는가를 나타내며 일반적으로 왜도의 절대값이 1보다 큰 경우에는 정규분포에서 벗어난 것으로 판단하시면 됩니다. 결론은 절대값 1을 기준으로 판단을 하시면 됩니다.

첨도(kurtosis)는 자료의 분포모양이 위로 뽀족한 정도를 나타내는 것으로 첨도의 절대값이 7보다 작아야 정상분포라고 판단을 합니다. 결론은 절대값 7을 기준으로 판단을 하게 됩니다.

정리하면 왜도는 절대값 1, 첨도는 절대값 7을 기준으로 판단하시면 된답니다.

Rucrazia's Blog

데이터 분석에서 Skewness(왜도)와 Kurtosis(첨도)는 중요한 요소이다.

 데이터의 분포가 한쪽으로 쏠린 것을 의미하는 Skewness는 positive Skewness와 Negative Skewness로 나뉜다. Positive Skewness는 오른쪽에 꼬리를 가진(왼쪽에 데이터가 많은) 형태이고, Negative Skewness는 왼쪽에 꼬리를 가진(오른쪽에 데이터가 많은) 형태이다. 일반적으로 고려 가능한 Un-Skew 수치는 +2~-2 사이이다. (George & Mallery, 2010). George, D., & Mallery, M. (2010). 즉, Skewness를 측정한 값 기준으로 -2~+2는 치우침이 없는 데이터라고 볼 수 있다.

-2 미만은 Negative Skew, +2 초과는 Positive Skew.

 Skewed 데이터를 변환하는 이유는 꼬리에 있는 값을 모델에 제대로 학습시키기 위함이다. Skewed 되어있는 값을 그대로 학습시키면 꼬리 부분이 상대적으로 적고 멀어서 모델에 영향이 거의 없이 학습된다. 만약 꼬리 부분도 노이즈가 아닌 정말 유의미한 데이터이면 꼬리 부분에 해당하는 test 데이터는 예측력이 낮아진다.
변환을 해서 들어가게 되면 그만큼 데이터의 중간값(or 평균값)가 tail 하고 가까워져서 모델에 보다 크게 들어간다. 그렇게 되면 꼬리 쪽에 해당하는 test 데이터가 들어와도 예측력이 높아진다.

Skew 데이터를 변환하는 방법으론 square root, cube root, log, outlier 제거 등이 있다.
  Positive skewed(right skewed) 변환방법 : square root, cube, log
  Negative skewed(left skewed) 변환방법 : square, cube root, logarithmic.
  (위의 log는 밑이 10인 것을 의미하고 logarithmic은 밑이 2인 것을 의미)

약간의 positve skew를 보이는 데이터를 변환한 결과를 보자.

아래는 n이 무수히 많을 때 사용하는 정규성 검정 방법인 Anderson-Darling Test를 해본 결과이다.

왜도 첨도 정규성 기준 - waedo cheomdo jeong-gyuseong gijun

아래는 Q-Q Plot을 그려본 결과로 정규성 검정과 마찬가지로 정규성 있는 데이터가 아니다.

아래는 위의 데이터에 Log를 씌운 데이터 결과이다.

아래는 Anderson-Darling Test를 해본 결과로 log를 취한다고 해도 정규성 가정을 통과 하진 못했다.

 그래도 QQ plot으론 log를 취하기 전보다 더 정규분포 직선과 비슷한 모습을 띄는 것을 볼 수 있다 (개인적인 추측으론 데이터 양이 많아서 정규성 검정에서 상당히 엄격하게 체크 된 것 같다. 즉, two-pairs T test에서 데이터가 매우 크면 아주 약간의 차이라도 유의확률(p=0.05)를 쉽게 만족(p<0.05)하게 되는 문제가 발생하는 원리와 비슷하다고 생각든다.)

Kurtosis(첨도)는 분포의 뾰족함이나 평평함에 관련된 것이 아니라 분포의 tail에 대한 모든 것이라고 할 수 있다.

 한쪽 꼬리 부분의 극 값과 다른 쪽 꼬리의 극 값 간의 차이를 보여준다. 그렇기 때문에 아웃라이어를 찾을 때 사용된다. 첨도가 높으면(Kurtosis > 3) 아웃라이어가 많이 있다. 첨도가 낮으면(Kurtosis < 3) 극값이 정규 분포의 값보다 작기 때문에 결과에 대한 확인을 해봐야 한다. 

 선형 회귀에서 독립변수와 종속변수에 대한 정규성 가정은 데이터가 많으면 중심극한정리로 인해서 문제가 되지 않으나, 잔차에 대한 분포가 정규성을 만족해야 하므로 변환한다 (잔차에 대한 분포가 정규성을 안띄면 모델의 성능이 좋지 않을 가능성이 높다.).

ref.

https://codeburst.io/2-important-statistics-terms-you-need-to-know-in-data-science-skewness-and-kurtosis-388fef94eeaa 

https://stats.stackexchange.com/questions/107610/what-is-the-reason-the-log-transformation-is-used-with-right-sk ewed-distribution

https://www.researchgate.net/post/Skewed_data_for_regression_analysis

분포의 형태

    모집단이 중심위치 기준으로 대칭(symmetric)이라고 가정

    분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고지에 영향을 받음

    자료의 분포 형태에 대한 측도

      자료가 모집단의 가정을 만족하는지에 확인

       , 모집단과 자료의 형태가 얼마나 유사한지에 대한 내용

왜도 (skewness)

ž   자료가 대칭적으로 분포되었는지 아닌지에 대한 측도

이를 수치적으로 표현하는 방법을 (역시) 피어슨이 제안

왜도 첨도 정규성 기준 - waedo cheomdo jeong-gyuseong gijun

(xi – xbar)^3: 평균보다 작으면 음수, 크면 양수

3승을 하기에 평균(직선) 부근에 큰 영향이 없으며, 좌/우로 멀어질수록 큰 영향이 생긴다. 

평균에서 멀어질수록 큰 음수나 양수가 된다. 

즉, 대칭인 경우 0에 가까운 값이 되며, +인 경우 좌측에 값이 많게 된다. 

첨도 (kurtosis)

양쪽 꼬리의 두터운 정도이다.

양쪽 꼬리가 짧다면 중간이 크며, 양쪽 꼬리가 길다면 중간이 뽀족하다. 

피어슨이 제안한 수식은 다음과 같다. 

왜도 첨도 정규성 기준 - waedo cheomdo jeong-gyuseong gijun

Ø  (xi – xbar)^4: 평균에서 멀어질수록 큰 값

Ø  분포의 중심보다는 꼬리부분이 얼마나 두터운지에 따라 영향을 많이 받음

꼬리가 길다는 것은 데이터에 이상점(outlier)가 있을수 있다는 것

왜도와 첨도를 통해 '정규분포'를 띄고 있는지 아닌지를 확인할 수 있다. 

이는 '정규성 검정' 방법 중 하나이다.

예를들어 왜도는 0이나 첨도가 3이면 정규분포가 아닐 수 있다. 

즉, 다양한 분석 방법은 정규분포를 가정하고 있으므로 이런 분석 방법을 적용할 수 없음을 의미한다.