Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- tamoxifen
- 주식투자
- 인공지능대회
- Preprocessing
- zonation
- single cell rna sequencing
- 통계학
- nearest neighbor graph constuction
- 오블완
- 티스토리챌린지
- 주식
- scRNASeq
- nature protocol
- satter plot
- 퍼짐 정도
- doublet detection
- 대학생주식
- confocal
- scanpy
- dimentional reduction
- loxp
- Tutorial
- cre-loxp system
- 대학생재테크
- R
- bioinformatics
- 중심 측도
- journal review
- scnapy
- cre recombinase
Archives
- Today
- Total
biotechknowledge
[R을 활용한 통계한 개론]통계학의 기본 개념 (모집단, 표본,자료의 종류) 본문
1. 모집단(Population)이란?
- 모집단은 분석하고자 하는 전체 대상을 의미합니다.
- 통계학에서 population은 단순히 '인구'를 뜻하는 것이 아니라, 관심을 갖고 분석하려는 모든 대상의 집합을 의미합니다.
- 예를 들어, 대한민국의 모든 유권자가 지지도를 분석하고자 할 때의 모집단이 됩니다.
- 한자로 “어미 모(母)”를 사용하여, 전체 집합을 나타냅니다.
2. 표본(Sample)이란?
- 표본은 모집단에서 일부를 추출한 부분집합입니다.
- 모집단의 특성을 추정하기 위해 특정 기준에 따라 선택된 자료입니다.
- 예를 들어, 대한민국 유권자 중 1,000명을 무작위로 선택하여 여론조사를 진행하는 경우, 이 1,000명이 표본이 됩니다.
3. 표본추출(Sampling)이란?
- 모집단에서 표본을 뽑아내는 과정을 표본추출이라고 합니다.
- 표본추출은 통계학에서 중요한 절차로, 표본이 모집단을 잘 대표하도록 하기 위해 랜덤하게 선택됩니다.
- 예를 들어, 지역, 성별, 나이 등 여러 변수에 따라 모집단을 층화한 후, 적절히 비율을 맞추어 표본을 추출합니다.
4. 모집단과 표본의 관계
- 모집단과 표본은 서로 밀접하게 연관되어 있으며, 모집단 전체를 조사할 수 없는 경우 표본을 통해 추론합니다.
- 통계학의 주요 목적은 표본을 분석하여 모집단의 특성을 추정하는 것입니다.
- 이를 통해 시간과 비용을 절감하면서도 모집단에 대한 신뢰할 수 있는 결론을 도출할 수 있습니다.
5. 모평균과 표본평균
- 모평균(Population Mean): 모집단의 평균값.
- 표본평균(Sample Mean): 표본의 평균값.
- 이 두 평균값은 개념적으로 다르며, 표본평균은 모평균을 추정하는 데 사용됩니다.
자료는 크게 양적 자료와 질적 자료로 구분되며, 각각의 세부 유형에 따라 정리 및 분석 방법이 달라집니다.
1. 양적 자료 (Quantitative Data)
- 정의: 숫자로 표현되며, 자료 자체가 1대 1로 수치와 대응되는 자료.
- 세부 유형:
- 연속형 자료 (Continuous Data):
- 일정 구간 내의 모든 실수 값을 가질 수 있는 자료.
- 예시: 혈압, 몸무게, 키, 온도.
- 이산형 자료 (Discrete Data):
- 정수 값만을 가질 수 있는 자료.
- 예시: 학급의 여학생 수(17명), 특정 지역의 연간 결혼 건수(35건).
- 연속형 자료 (Continuous Data):
2. 질적 자료 (Qualitative Data)
- 정의: 숫자로 표현되지 않으며, 자료가 구분이나 범주를 나타냄.
- 세부 유형:
- 명목형 자료 (Nominal Data):
- 단순히 구분하기 위한 숫자 코드로, 숫자 간의 크기나 순서 의미가 없음.
- 예시: 성별(남자=1, 여자=0), 혈액형(A형=1, B형=2).
- 숫자 코드 자체는 아무 의미가 없으며, 단순 구분을 위한 도구.
- 순서형 자료 (Ordinal Data):
- 구분 외에 순서의 개념이 포함된 자료.
- 예시: 삶의 만족도(상=1, 중=2, 하=3), 설문조사의 선호도(매우 나쁨=1, 나쁨=2, 보통=3, 좋음=4, 매우 좋음=5).
- 숫자를 부여할 때 반드시 순서에 근거해야 함.
- 명목형 자료 (Nominal Data):
시각화 그래프의 종류
1. 도수분포표 (Frequency Table)
- 정의: 자료의 각 항목에 대한 빈도(도수)를 정리한 표.
- 용도:
- 질적 자료(예: 남/여, 선호도 등)의 분포를 간단히 요약.
- 각 범주에 속하는 항목의 도수를 한눈에 확인 가능.
- 구성:
- 범주(Category): 예를 들어, 후보자 A, B, C.
- 도수(Frequency): 각 범주에 해당하는 빈도수.
- 상대도수(Relative Frequency): 전체 도수에 대한 각 도수의 비율.
- 예시:
- 후보자 A: 1520표, B: 770표, C: 510표.
- 상대도수: A = 54.3%, B = 27.5%, C = 18.2%.
2. 파이차트 (Pie Chart)
- 정의: 자료의 비율을 원형 그래프로 나타낸 그래프.
- 용도:
- 범주형 데이터(질적 자료)의 비율 비교에 적합.
- 각 범주가 전체에서 차지하는 비율을 직관적으로 확인 가능.
- 구성:
- 원형을 각 범주의 비율에 따라 나눔.
- 각 영역에는 범주와 비율(%)이 레이블로 표시됨.
- 특징:
- 상대적인 크기를 시각적으로 쉽게 파악 가능.
- 범주 수가 많으면 해석이 어려울 수 있음.
3. 히스토그램 (Histogram)
- 정의: 데이터를 구간(계급)으로 나누어 각 구간에 속하는 값의 빈도를 막대로 표현한 그래프.
- 용도:
- 양적 자료(예: 키, 몸무게, 시험 점수 등)의 분포를 시각적으로 나타냄.
- 데이터의 분포 형태(예: 정규분포, 왼쪽/오른쪽으로 치우침 등)를 파악.
- 구성:
- 계급구간(Interval): 데이터 값을 구간으로 나눔.
- 막대 높이: 각 구간의 도수(빈도)를 나타냄.
- 특징:
- 계급 구간의 개수가 너무 많거나 적으면 데이터 분포를 왜곡할 수 있음.
- 분포의 전반적인 형태와 패턴을 쉽게 이해할 수 있음.
4. 줄기-잎 그림 (Stem-and-Leaf Plot)
- 정의: 데이터의 분포를 숫자의 자리수를 기준으로 정리하여 시각적으로 나타낸 그래프.
- 용도:
- 양적 자료를 정리하며 데이터의 개별 값을 모두 확인 가능.
- 히스토그램과 유사하게 데이터 분포 형태를 보여줌.
- 구성:
- 줄기(Stem): 데이터의 주요 자리수(예: 10의 자리, 100의 자리 등).
- 잎(Leaf): 데이터의 나머지 자리수(예: 1의 자리, 10의 자리 등).
- 특징:
- 각 데이터 값을 개별적으로 나타내며, 최소값/최대값 등 세부적인 값 확인 가능.
- 데이터를 회전하면 히스토그램과 유사한 분포를 볼 수 있음.
- 분포 형태와 데이터의 구체적인 값들을 동시에 확인 가능.
'statistics' 카테고리의 다른 글
[R을 활용한 통계한 개론]중심, 퍼짐 측도, box plot, scatter plot, Correlation Coefficient 이해하기 (2) | 2024.11.23 |
---|---|
[R을 활용한 통계한 개론]통계학이란 무엇인가? (1) | 2024.11.20 |