왜도 첨도 공식 - waedo cheomdo gongsig

왜도와 첨도

왜도와 첨도(Skewness and Kurtosis)

  • 여기서는 표본 왜도와 표본 첨도를 구하는 package:e1071skewness 함수와 kurtosis 함수를 살펴본다.
  • 차례
    • 표본 분산
    • 표본 왜도
    • 표본 첨도

표본 분산

  • 먼저 어떤 확률 변수 \(X\) 의 분산은 다음과 같이 구한다. 이는 모집단의 분산이다.
    • 이산형인 경우 : \(\mathbb{V}\text{ar}(X) = \sum{\mathbb{P}(X=x_i)\cdot x_i}\)
    • 연속형인 경우 : \(\int f(X=x) x dx\)
  • 우리가 모집단을 모두 알 수 없을 때, 표본을 통해 모집단의 분산을 추정할 수 있다. 만약 표본에 대해 모집단 표본을 구할 때와 동일한 방식을 쓴다면, 표본의 크기가 커짐에 따라 매우 정확한 값을 구할 수 있을 것이다. 하지만 분산을 구할 때 사용하는 평균이 모평균과 정확하게 일치하지 않기 때문에 표본 분산은 모분산을 과소추정하는 경향이 있다. 이를 보정하기 위해 표본 분산을 구할 때에는 표본의 크기 \(n\) 이 아니라 \(n-1\) 로 나눠준다.
    • 표본 분산 : \(\sum \frac{(x_i – \bar{x})^2}{n-1}\)
  • R의 var() 함수는 표본 분산을 구해준다.

표본 왜도

  • 집단의 왜도는 다음과 같이 구한다.
    • \(\mathbb{E}[\left(\frac{X-\mu}{\sigma}\right)^3]\)
    • 간단하게 설명하면 확률변수 \(X\) 를 표준화시킨 \(\frac{X-\mu}{\sigma}\) 의 세제곱의 평균이다.
  • 집단의 왜도를 표본을 통해 추정하고자 한다고 해보자. 우리는 대부분의 경우 모평균 \(\mu\) 와 모표준편차 \(\sigma\) 를 모두 모르기 때문에 표본 평균과 표본 표준편차를 적절히 사용하고, 과소 추정 또는 과대 추정의 문제를 해결해야 할 것이다. 이에 대해서는 세 가지 방법이 제안되었다. 여기서 \(s\) 는 표본표준편차이고, \(m_2 = \sum_i (x_i-\mu)^2/n\) 과 \(m_3 = \sum_i (x_i-\mu)^2/n\) 는 표본 2차 중심적률(central moment), 표본 3차 중심적률(central moment)이다.
    • Type 1: \(g_1 = m_3/m_2^{3/2}\) . 주로 예전 교과서에서 쓰였다.
    • Type 2: \(G_1 = g_1 * \sqrt{n(n-1)}/(n-2)\) . SAS와 SPSS에서 쓰인다.
    • Type 3: \(b_1 = m_3/s^3=g_1\left(\frac{n-1}{n}\right)^{3/2}\)
  • R의 함수 e1071::skewness(x= , type= )에서 type을 설정해줄 수 있다. 기본값은 3이고, 모든 Type이 정규분포에서 비편향 추정량이라고 한다.[1]

표본 첨도

  • 모집단의 첨도는 다음과 같이 구한다.
    • \(\frac{\mathbb{E}[(X-\mu)^4]}{(\mathbb{V}ar[X])^2}\)
  • 표본 첨도에도 3가지 Type이 있다.
    • Type 1: \(g_2 = m_4 / m_2 ^2 – 3\) . 예전 교과서에서 많이 쓰였다.
    • Type 2: \(G_2 = ((n+1)g_2 + 6) * (n-1) / ((n-2)(n-3))\) . SAS와 SPSS에서 쓰인다.
    • Type 3: \(b_2 = m_4 /s^4 – 3 = (g_2+3)(1-1/n)^2-3\) . MINITAB과 BMDP에서 쓰인다.
    • Type 2만 정규분포에서 비편향적이다.
    • R에서는 e1071::kurtosis(x=, type= )에서 type을 설정할 수 있다.
  • 모첨도와 표본 첨도의 비교
    • 모첨도의 경우 항상 1보다 크다. 정규분포의 경우 모첨도가 3이므로 정규분포와의 비교를 위해 3을 빼는 경우도 있다. 이렇게 첨도에 3을 뺀 값을 excess kurtosis라고 한다.
    • 위에서 소개한 표본 첨도는 모첨도에 3을 뺀 excess kurtosis를 추정하는 값이라고 할 수 있다. 따라서 모집단이 정규분포를 따른다면 표본 첨도는 0과 가까이 분포할 것이다.

[1]: package:e1071 문서, Joanes and Gill(1998)

Tags: kurtosis skewness 비대칭도 뾰족도 왜도 첨도

안녕하세요! 눈꽃입니다~

지금까지 여러 번의 포스팅에 걸쳐서 자료를 요약하는 여러 방법에 대해서 다루어봤습니다!
범주형 자료와 양적 자료의 자료의 요약 방법을 각각 살펴보았으며, 직전 포스팅에서는 양적 자료의 요약 방법 중 하나로 산포도를 나타낼 수 있는 여러 척도들에 대해서 다루어보았습니다!

이번 포스팅에서는 자료에 대한 요약 방법 중 대푯값이나 산포도 다음으로 설명되는 왜도, 첨도, 백분위수 그리고 표준점수에 대해서 알아보도록 하겠습니다!

1. 왜도(skewness): 왜도는 비대칭의 정도를 나타냅니다! 공식은 다음과 같습니다~

왜도 첨도 공식 - waedo cheomdo gongsig

위 공식에서 Sk는 왜도를 나타내며, 바 x는 표본 평균, s는 표본의 표준편차를 말합니다!

왜도가 양수이면 오른쪽으로 꼬리가 긴 함수가 되며, 왜도의 값이 음수이면 왼쪽으로 꼬리가 긴 분포가 됩니다!

그림으로 살펴보면, 아래와 같이 왼쪽으로 꼬리가 긴 분포는 왜도의 값이 음수라는 뜻이겠죠?

왜도 첨도 공식 - waedo cheomdo gongsig

아래의 그림처럼 오른쪽으로 꼬리가 긴 분포라는 것은 왜도가 양수라는 뜻입니다!

왜도 첨도 공식 - waedo cheomdo gongsig

2. 첨도(kurtosis): 첨도는 말 그대로 그래프가 얼마나 뽀족한 지를 나타내는 척도입니다! 첨도의 공식은 다음과 같습니다!

왜도 첨도 공식 - waedo cheomdo gongsig

여기서 하나 알아두어야 하는 부분은 정규분포의 첨도는 3이라는 사실입니다!

정규분포의 첨도를 0으로 만들어주어, 정규분포의 첨도와 다른 그래프들의 첨도를 비교하기 쉽게 만들기 위해서 위 공식에서 3을 뺀 값을 첨도로 정의하는 경우도 많답니다!! 이렇게 원래의 첨도에서 3을 뺸 값을 초과 첨도(excess kurtosis)라고 합니다! 

첨도가 크면 큰 값을 가질 수록, 중앙이 뾰족한 형태를 가집니다!

3. 백분위수: 우리가 실생활에서 굉장히 많이 쓰는 백분위수는 특정 값이 다른 값들에 대해 상대적인 위치를 나타내 줄 때 사용하는데요, c 백분위수의 정의는 전체 관측값들의 c%가 그 값보다 작고, 나머지는 더 크다는 것을 의미합니다!
정의에 따르면 중위수는 50 백분위수에 해당하며, 더 큰 백분위수를 가질 수록 상위권에 있다는 것을 알 수 있습니다!

4. 표준점수: 표준점수란 관측값에서 평균을 뺀 값을 표준편차로 나눈 것을 의미합니다!  표준점수는 분자와 분모의 측정단위가 상쇄되기 때문에 측정 단위가 없는 수치가 되며, 표준점수들의 평균은 0, 표준편차는 1이 됩니다!

왜도 첨도 공식 - waedo cheomdo gongsig

표준점수의 활용: 각 관측값의 위치가 평균을 중심으로 몇 표준편차 위 또는 아래에 있다는 것을 의미하므로 관측값의 전체 데이터 내에서의 위치를 잘 나타내줄 수 있습니다!
실제로, 표준점수는 수능처럼 난이도가 다른 과목을 치른 수험생들의 성적을 비교하여 표준점수를 산출할 때 활용되는 등, 생각보다 실생활에서 많이 사용이 됩니다!

예를 들어 어떤 학생이 국어 시험에서는 70점을 받고, 수학 시험에서는 80점을 받았다고 가정해봅시다. 국어시험 반 평균은 60점, 표준편차는 5점, 수학시험 반 평균은 70점이고 표준편차가 10점이었다면 국어의 표준점수는 2, 수학의 표준점수는 1로 수학시험을 '상대적으로' 더 잘 본 것이라고 판단할 수 있습니다!

'공부 > 통계학' 카테고리의 다른 글

줄기-잎 그림, 히스토그램, 선도표, 상자그림  (0) 2021.05.04
자료의 산포_ 분산, 번위, 사분위범위, 변동계수가 무엇이며 어떻게 구할까요?  (0) 2021.05.04
왜도, 첨도, 백분위수, 표준점수  (0) 2021.05.04
대칭인 분포, 왼쪽 오른쪽으로 꼬리가 긴 평균과 중위수를 비교하면?  (0) 2021.04.10
대푯값_ 평균, 중위수, 최빈값, 절사평균은 무엇이며 장단점, 예시는 무엇인가요?  (0) 2021.04.10
자료의 요약_ 도수분포표, 막대 그래프, 파이차트 어떻게 쉽게 그리나요?  (0) 2021.04.10