biotechknowledge

[R을 활용한 통계한 개론]통계학의 기본 개념 (모집단, 표본,자료의 종류) 본문

statistics

[R을 활용한 통계한 개론]통계학의 기본 개념 (모집단, 표본,자료의 종류)

준2준2 2024. 11. 22. 23:55

https://keydifferences.com/difference-between-population-and-sample.html

 

1. 모집단(Population)이란?

  • 모집단은 분석하고자 하는 전체 대상을 의미합니다.
  • 통계학에서 population은 단순히 '인구'를 뜻하는 것이 아니라, 관심을 갖고 분석하려는 모든 대상의 집합을 의미합니다.
  • 예를 들어, 대한민국의 모든 유권자가 지지도를 분석하고자 할 때의 모집단이 됩니다.
  • 한자로 “어미 모(母)”를 사용하여, 전체 집합을 나타냅니다.

2. 표본(Sample)이란?

  • 표본은 모집단에서 일부를 추출한 부분집합입니다.
  • 모집단의 특성을 추정하기 위해 특정 기준에 따라 선택된 자료입니다.
  • 예를 들어, 대한민국 유권자 중 1,000명을 무작위로 선택하여 여론조사를 진행하는 경우, 이 1,000명이 표본이 됩니다.

3. 표본추출(Sampling)이란?

  • 모집단에서 표본을 뽑아내는 과정을 표본추출이라고 합니다.
  • 표본추출은 통계학에서 중요한 절차로, 표본이 모집단을 잘 대표하도록 하기 위해 랜덤하게 선택됩니다.
  • 예를 들어, 지역, 성별, 나이 등 여러 변수에 따라 모집단을 층화한 후, 적절히 비율을 맞추어 표본을 추출합니다.

4. 모집단과 표본의 관계

  • 모집단과 표본은 서로 밀접하게 연관되어 있으며, 모집단 전체를 조사할 수 없는 경우 표본을 통해 추론합니다.
  • 통계학의 주요 목적은 표본을 분석하여 모집단의 특성을 추정하는 것입니다.
  • 이를 통해 시간과 비용을 절감하면서도 모집단에 대한 신뢰할 수 있는 결론을 도출할 수 있습니다.

5. 모평균과 표본평균

  • 모평균(Population Mean): 모집단의 평균값.
  • 표본평균(Sample Mean): 표본의 평균값.
  • 이 두 평균값은 개념적으로 다르며, 표본평균은 모평균을 추정하는 데 사용됩니다.

 

https://byjus.com/maths/types-of-data-in-statistics/

 

자료는 크게 양적 자료질적 자료로 구분되며, 각각의 세부 유형에 따라 정리 및 분석 방법이 달라집니다.

1. 양적 자료 (Quantitative Data)

  • 정의: 숫자로 표현되며, 자료 자체가 1대 1로 수치와 대응되는 자료.
  • 세부 유형:
    1. 연속형 자료 (Continuous Data):
      • 일정 구간 내의 모든 실수 값을 가질 수 있는 자료.
      • 예시: 혈압, 몸무게, 키, 온도.
    2. 이산형 자료 (Discrete Data):
      • 정수 값만을 가질 수 있는 자료.
      • 예시: 학급의 여학생 수(17명), 특정 지역의 연간 결혼 건수(35건).

2. 질적 자료 (Qualitative Data)

  • 정의: 숫자로 표현되지 않으며, 자료가 구분이나 범주를 나타냄.
  • 세부 유형:
    1. 명목형 자료 (Nominal Data):
      • 단순히 구분하기 위한 숫자 코드로, 숫자 간의 크기나 순서 의미가 없음.
      • 예시: 성별(남자=1, 여자=0), 혈액형(A형=1, B형=2).
      • 숫자 코드 자체는 아무 의미가 없으며, 단순 구분을 위한 도구.
    2. 순서형 자료 (Ordinal Data):
      • 구분 외에 순서의 개념이 포함된 자료.
      • 예시: 삶의 만족도(상=1, 중=2, 하=3), 설문조사의 선호도(매우 나쁨=1, 나쁨=2, 보통=3, 좋음=4, 매우 좋음=5).
      • 숫자를 부여할 때 반드시 순서에 근거해야 함.

시각화 그래프의 종류

1. 도수분포표 (Frequency Table)

  • 정의: 자료의 각 항목에 대한 빈도(도수)를 정리한 표.
  • 용도:
    • 질적 자료(예: 남/여, 선호도 등)의 분포를 간단히 요약.
    • 각 범주에 속하는 항목의 도수를 한눈에 확인 가능.
  • 구성:
    • 범주(Category): 예를 들어, 후보자 A, B, C.
    • 도수(Frequency): 각 범주에 해당하는 빈도수.
    • 상대도수(Relative Frequency): 전체 도수에 대한 각 도수의 비율.
  • 예시:
    • 후보자 A: 1520표, B: 770표, C: 510표.
    • 상대도수: A = 54.3%, B = 27.5%, C = 18.2%.

2. 파이차트 (Pie Chart)

  • 정의: 자료의 비율을 원형 그래프로 나타낸 그래프.
  • 용도:
    • 범주형 데이터(질적 자료)의 비율 비교에 적합.
    • 각 범주가 전체에서 차지하는 비율을 직관적으로 확인 가능.
  • 구성:
    • 원형을 각 범주의 비율에 따라 나눔.
    • 각 영역에는 범주와 비율(%)이 레이블로 표시됨.
  • 특징:
    • 상대적인 크기를 시각적으로 쉽게 파악 가능.
    • 범주 수가 많으면 해석이 어려울 수 있음.

3. 히스토그램 (Histogram)

  • 정의: 데이터를 구간(계급)으로 나누어 각 구간에 속하는 값의 빈도를 막대로 표현한 그래프.
  • 용도:
    • 양적 자료(예: 키, 몸무게, 시험 점수 등)의 분포를 시각적으로 나타냄.
    • 데이터의 분포 형태(예: 정규분포, 왼쪽/오른쪽으로 치우침 등)를 파악.
  • 구성:
    • 계급구간(Interval): 데이터 값을 구간으로 나눔.
    • 막대 높이: 각 구간의 도수(빈도)를 나타냄.
  • 특징:
    • 계급 구간의 개수가 너무 많거나 적으면 데이터 분포를 왜곡할 수 있음.
    • 분포의 전반적인 형태와 패턴을 쉽게 이해할 수 있음.

stem and leat , https://www.ck12.org/book/ck-12-basic-probability-and-statistics-a-full-course/section/7.2/

4. 줄기-잎 그림 (Stem-and-Leaf Plot)

  • 정의: 데이터의 분포를 숫자의 자리수를 기준으로 정리하여 시각적으로 나타낸 그래프.
  • 용도:
    • 양적 자료를 정리하며 데이터의 개별 값을 모두 확인 가능.
    • 히스토그램과 유사하게 데이터 분포 형태를 보여줌.
  • 구성:
    • 줄기(Stem): 데이터의 주요 자리수(예: 10의 자리, 100의 자리 등).
    • 잎(Leaf): 데이터의 나머지 자리수(예: 1의 자리, 10의 자리 등).
  • 특징:
    • 각 데이터 값을 개별적으로 나타내며, 최소값/최대값 등 세부적인 값 확인 가능.
    • 데이터를 회전하면 히스토그램과 유사한 분포를 볼 수 있음.
    • 분포 형태와 데이터의 구체적인 값들을 동시에 확인 가능.