mathematics and statistics
[R을 활용한 통계한 개론]중심, 퍼짐 측도, box plot, scatter plot, Correlation Coefficient 이해하기
준2준2
2024. 11. 23. 15:00
https://lms.kmooc.kr/course/view.php?id=13669
K-MOOC
www.kmooc.kr
K-mooc 강좌 R을 활용한 통계학 개론을 정리한 내용입니다.
1. 중심 측도
중심 측도는 자료의 중심을 나타내는 값으로, 대표적으로 **표본평균(sample mean)**과 **표본 중앙값(sample median)**이 있습니다.
1.1. 표본평균 (Sample Mean)
- 정의: 자료값의 합을 자료의 개수로 나눈 값.
- 수식:
- 특징: 자료의 무게중심에 해당하며, 자료 전체의 평균적인 위치를 나타냄.
- 단점: 이상치(outlier)에 매우 민감함.
1.2. 표본 중앙값 (Sample Median)
- 정의: 자료를 크기순으로 정렬했을 때 가운데 위치한 값.
- 홀수 개 자료: 중앙값은 가운데 값.
- 짝수 개 자료: 가운데 두 값의 평균.
- 장점: 이상치에 **robust(견고)**하며, 극단적인 값의 영향을 받지 않음.
1.3. 표본평균과 표본 중앙값 비교
- 이상치가 있을 때 표본평균은 크게 변하지만, 표본 중앙값은 변하지 않음.
- 따라서 이상치가 많은 경우, 중앙값이 더 적합한 중심 측도로 사용됨.
2. 퍼짐 측도
퍼짐 측도는 자료가 중심으로부터 얼마나 퍼져 있는지를 나타냅니다. 대표적인 측도로 표본분산(sample variance), 표본 범위(range), 사분위수 범위(IQR) 등이 있습니다.
2.1. 표본분산 (Sample Variance)
- 정의: 각 데이터 값에서 평균을 뺀 편차의 제곱 평균.
- 수식:
- 특징: 자료의 퍼짐 정도를 수치로 나타내며, 자유도(degree of freedom)와 관련 있음.
2.2. 표본 범위 (Sample Range)
- 정의: 자료의 최대값에서 최소값을 뺀 값.
- 수식:
2.3. 사분위수 범위 (Interquartile Range, IQR)
- 정의: **제3사분위수(Q3)**와 **제1사분위수(Q1)**의 차이.
- 수식:
- 특징: 자료의 중간 50%가 퍼져 있는 범위를 나타냄.
3. 분포의 형태
분포의 형태는 자료의 전체적인 구조를 설명합니다.
3.1. 분포의 비대칭성 (Skewness)
- 오른쪽으로 긴 꼬리 (right-skewed): 평균 > 중앙값. 왜도(Skewness) > 0.
- 왼쪽으로 긴 꼬리 (left-skewed): 평균 < 중앙값. 왜도(Skewness) < 0.
- 대칭분포 (symmetric): 평균 ≈ 중앙값. 왜도(Skewness) ≈ 0.
3.2. 왜도(Skewness)
- 정의: 분포가 한쪽으로 치우쳐진 정도를 나타내는 값.
- 영어 표현:
- Positive Skewness: 오른쪽 꼬리 분포, 왜도 > 0.
- Negative Skewness: 왼쪽 꼬리 분포, 왜도 < 0.
4. 시각화: 상자그림(Boxplot)과 이상치
4.1. 상자그림(Boxplot)
- 구성 요소:
- Q1 (제1사분위수): 하위 25% 경계.
- Q2 (제2사분위수): 중앙값.
- Q3 (제3사분위수): 상위 25% 경계.
- IQR (사분위수 범위): Q3 - Q1.
- Whisker (수염): 1.5 × IQR 범위 내의 최대/최소값.
- Outlier (이상치): 1.5 × IQR 범위를 벗어난 값.
- 특징:
- 이상치를 쉽게 식별할 수 있음.
- 자료의 분포와 퍼짐을 직관적으로 파악 가능
결론
- 자료를 정리하는 데 있어 수치적 측도와 그래프는 각각의 장점이 있습니다. 특히, 중심과 퍼짐의 측도를 통해 자료의 특성을 파악하고, 이를 시각적으로 표현하는 상자그림과 그래프를 활용하면 데이터 분석의 효율성을 크게 높일 수 있습니다.
1. 이변량 자료의 개념
1.1. 자료의 종류
- 일변량 자료 (Univariate Data): 변수 하나로 구성된 자료.
- 이변량 자료 (Bivariate Data): 두 변수 간의 관계를 다룬 자료.
- 다변량 자료 (Multivariate Data): 두 개 이상의 변수를 동시에 고려한 자료.
2. 이변량 자료의 표현
2.1. 질적 자료
- 두 변수 모두 범주형 자료일 경우, **분할표(contingency table)**로 요약.
- 예: 학생 성별(남/여)과 시험 난이도(어렵다/보통이다/쉽다)를 고려한 2 × 3 분할표.
2.2. 양적 자료
- 두 변수 모두 연속형 데이터일 경우, **산점도(scatter plot)**로 표현.
- 산점도는 두 변수 간의 관계를 시각적으로 파악하는 데 유용함.
3. 산점도와 상관관계
3.1. 산점도(Scatter Plot)
- 각 점은 이변량 자료의 하나의 관측치를 나타냄.
- 양의 상관관계 (Positive Correlation): 한 변수가 증가할 때 다른 변수도 증가.
- 음의 상관관계 (Negative Correlation): 한 변수가 증가할 때 다른 변수는 감소.
- 상관 없음 (No Correlation): 두 변수 간에 규칙적인 관계가 없음.
3.2. 허위상관과 잠복변수
- 허위상관 (Spurious Correlation): 두 변수 간 상관관계가 있어 보이지만, 실제로는 다른 변수(잠복변수)의 영향을 받은 경우.
- 잠복변수 (Lurking Variable): 상관관계의 원인으로 작용하지만, 분석에 포함되지 않은 변수.
- 예: 도시의 강력범죄 건수와 교회 수는 인구라는 잠복변수에 의해 상관관계를 가지는 것처럼 보일 수 있음.
4. 상관계수 (Correlation Coefficient)
4.1. 정의
- 상관계수는 두 변수 간의 선형적 관계의 정도를 나타내는 값.
- 표본 상관계수 rr는 다음과 같은 공식을 사용해 계산:
- : 두 변수의 표본 공분산.
- Sxx,Syy: 각 변수의 표본분산.
4.2. 특징
- 상관계수는 −1≤ r ≤1범위를 가짐.
- r>0 : 양의 상관관계.
- r<0 : 음의 상관관계.
- r=0 : 선형 관계가 없음.
- 상관계수는 선형 관계만을 측정하며, 비선형 관계는 설명하지 못함.