[R을 활용한 통계한 개론]중심, 퍼짐 측도, box plot, scatter plot, Correlation Coefficient 이해하기

mathematics and statistics

[R을 활용한 통계한 개론]중심, 퍼짐 측도, box plot, scatter plot, Correlation Coefficient 이해하기

준2준2 2024. 11. 23. 15:00

https://lms.kmooc.kr/course/view.php?id=13669

K-MOOC

www.kmooc.kr

K-mooc 강좌 R을 활용한 통계학 개론을 정리한 내용입니다.

1. 중심 측도

중심 측도는 자료의 중심을 나타내는 값으로, 대표적으로 **표본평균(sample mean)**과 **표본 중앙값(sample median)**이 있습니다.

1.1. 표본평균 (Sample Mean)

정의: 자료값의 합을 자료의 개수로 나눈 값.
수식:

특징: 자료의 무게중심에 해당하며, 자료 전체의 평균적인 위치를 나타냄.
단점: 이상치(outlier)에 매우 민감함.

1.2. 표본 중앙값 (Sample Median)

정의: 자료를 크기순으로 정렬했을 때 가운데 위치한 값.
- 홀수 개 자료: 중앙값은 가운데 값.
- 짝수 개 자료: 가운데 두 값의 평균.
장점: 이상치에 **robust(견고)**하며, 극단적인 값의 영향을 받지 않음.

1.3. 표본평균과 표본 중앙값 비교

이상치가 있을 때 표본평균은 크게 변하지만, 표본 중앙값은 변하지 않음.
따라서 이상치가 많은 경우, 중앙값이 더 적합한 중심 측도로 사용됨.

2. 퍼짐 측도

퍼짐 측도는 자료가 중심으로부터 얼마나 퍼져 있는지를 나타냅니다. 대표적인 측도로 표본분산(sample variance), 표본 범위(range), 사분위수 범위(IQR) 등이 있습니다.

2.1. 표본분산 (Sample Variance)

정의: 각 데이터 값에서 평균을 뺀 편차의 제곱 평균.
수식:

특징: 자료의 퍼짐 정도를 수치로 나타내며, 자유도(degree of freedom)와 관련 있음.

2.2. 표본 범위 (Sample Range)

정의: 자료의 최대값에서 최소값을 뺀 값.
수식:

2.3. 사분위수 범위 (Interquartile Range, IQR)

정의: **제3사분위수(Q3)**와 **제1사분위수(Q1)**의 차이.
수식:

특징: 자료의 중간 50%가 퍼져 있는 범위를 나타냄.

3. 분포의 형태

분포의 형태는 자료의 전체적인 구조를 설명합니다.

3.1. 분포의 비대칭성 (Skewness)

오른쪽으로 긴 꼬리 (right-skewed): 평균 > 중앙값. 왜도(Skewness) > 0.
왼쪽으로 긴 꼬리 (left-skewed): 평균 < 중앙값. 왜도(Skewness) < 0.
대칭분포 (symmetric): 평균 ≈ 중앙값. 왜도(Skewness) ≈ 0.

3.2. 왜도(Skewness)

정의: 분포가 한쪽으로 치우쳐진 정도를 나타내는 값.
영어 표현:
- Positive Skewness: 오른쪽 꼬리 분포, 왜도 > 0.
- Negative Skewness: 왼쪽 꼬리 분포, 왜도 < 0.

4. 시각화: 상자그림(Boxplot)과 이상치

https://www.simplypsychology.org/boxplots.html

4.1. 상자그림(Boxplot)

구성 요소:
- Q1 (제1사분위수): 하위 25% 경계.
- Q2 (제2사분위수): 중앙값.
- Q3 (제3사분위수): 상위 25% 경계.
- IQR (사분위수 범위): Q3 - Q1.
- Whisker (수염): 1.5 × IQR 범위 내의 최대/최소값.
- Outlier (이상치): 1.5 × IQR 범위를 벗어난 값.
특징:
- 이상치를 쉽게 식별할 수 있음.
- 자료의 분포와 퍼짐을 직관적으로 파악 가능

결론

자료를 정리하는 데 있어 수치적 측도와 그래프는 각각의 장점이 있습니다. 특히, 중심과 퍼짐의 측도를 통해 자료의 특성을 파악하고, 이를 시각적으로 표현하는 상자그림과 그래프를 활용하면 데이터 분석의 효율성을 크게 높일 수 있습니다.

1. 이변량 자료의 개념

1.1. 자료의 종류

일변량 자료 (Univariate Data): 변수 하나로 구성된 자료.
이변량 자료 (Bivariate Data): 두 변수 간의 관계를 다룬 자료.
다변량 자료 (Multivariate Data): 두 개 이상의 변수를 동시에 고려한 자료.

2. 이변량 자료의 표현

https://www.opinionx.co/blog/contingency-table

2.1. 질적 자료

두 변수 모두 범주형 자료일 경우, **분할표(contingency table)**로 요약.
예: 학생 성별(남/여)과 시험 난이도(어렵다/보통이다/쉽다)를 고려한 2 × 3 분할표.

2.2. 양적 자료

두 변수 모두 연속형 데이터일 경우, **산점도(scatter plot)**로 표현.
산점도는 두 변수 간의 관계를 시각적으로 파악하는 데 유용함.

3. 산점도와 상관관계

https://planyway.com/blog/how-to-make-a-scatter-plot

3.1. 산점도(Scatter Plot)

각 점은 이변량 자료의 하나의 관측치를 나타냄.
양의 상관관계 (Positive Correlation): 한 변수가 증가할 때 다른 변수도 증가.
음의 상관관계 (Negative Correlation): 한 변수가 증가할 때 다른 변수는 감소.
상관 없음 (No Correlation): 두 변수 간에 규칙적인 관계가 없음.

3.2. 허위상관과 잠복변수

허위상관 (Spurious Correlation): 두 변수 간 상관관계가 있어 보이지만, 실제로는 다른 변수(잠복변수)의 영향을 받은 경우.
잠복변수 (Lurking Variable): 상관관계의 원인으로 작용하지만, 분석에 포함되지 않은 변수.
예: 도시의 강력범죄 건수와 교회 수는 인구라는 잠복변수에 의해 상관관계를 가지는 것처럼 보일 수 있음.

4. 상관계수 (Correlation Coefficient)

4.1. 정의

상관계수는 두 변수 간의 선형적 관계의 정도를 나타내는 값.
표본 상관계수 rr는 다음과 같은 공식을 사용해 계산:

: 두 변수의 표본 공분산.
Sxx,Syy: 각 변수의 표본분산.

4.2. 특징

상관계수는 −1≤ r ≤1범위를 가짐.
- r>0 : 양의 상관관계.
- r<0 : 음의 상관관계.
- r=0 : 선형 관계가 없음.
상관계수는 선형 관계만을 측정하며, 비선형 관계는 설명하지 못함.