biotechknowledge

[R을 활용한 통계학 개론]확률변수, 확률분포, 확률밀도함수, 기대값 개념 설명 본문

mathematics and statistics

[R을 활용한 통계학 개론]확률변수, 확률분포, 확률밀도함수, 기대값 개념 설명

준2준2 2024. 12. 26. 23:48

https://lms.kmooc.kr/course/view.php?id=13669

 

K-MOOC

 

www.kmooc.kr

K-mooc 강좌 R을 활용한 통계학 개론을 정리한 내용입니다.

 


 

1. 확률변수(Random Variable)

  • 정의: 표본공간에서 정의된 함수.
    • 표본공간 S의 각 원소(단위사건)에 실수 값을 부여하는 함수.
    • 수학적 표현으로는 X:S→R, 즉 X가 표본공간에서 실수 공간으로 매핑되는 함수.
    • 흔히 X,Y,Z로 표현.
    • 줄여서 r.v 라고도 부름.

확률변수가 특정 값을 가질 확률을 체계적으로 정리한 것.


2. 확률변수의 종류

  1. 이산 확률변수(Discrete Random Variable)
    • 확률변수 가 취할 수 있는 값이:
      • 유한개 (finite) 또는
      • 자연수와 일대일 대응되는 무한개 (countable infinite).
    • 예: 주사위 결과, 동전 던지기 결과 등.
  2. 연속 확률변수(Continuous Random Variable)
    • 확률변수 X가 일정 구간의 모든 실수 값을 가질 수 있음.
    • 예: 사람의 나이, 몸무게, 키 등.

 

3. 확률분포(Probability Distribution)

확률 분포는 수치화된 값이 어떤 패턴을 가지는지 정리하고 분석한다.

  1. 이산확률분포
    • 확률변수 가 특정 값 xi를 취할 확률은 f(xi)로 표현.
    • 확률분포는 다음 두 가지 성질을 만족해야 함:
      1. f(xi)≥0 (모든 확률은 0 이상)
      2. 모든 값의 확률 합은 1
    • 예: 주사위 눈의 합 확률분포.
  2. 연속확률분포
    • 확률변수 가 특정 구간 [a,b] 내의 값을 가질 확률은 확률밀도함수(pdf)를 사용해 계산.
    • 확률밀도함수의 성질:
      1. f(x)≥0 (모든 x에서 0 이상).
      2. 전체 구간에서의 확률 밀도 적분 값은 1

 

Q. 왜 다시 확률로 바꾸는가?

A. 확률을 정량화 하기 위해서이다. 확률변수는 표본공간의 사건을 실수로 바꾼 후, 각 값에 대해 "그 값이 나올 가능성(확률)"을 정량적으로 표현한다.

 

예시)

  • 확률변수 를 주사위 눈의 합으로 정의 X={2,3,…,12}.  (표본공간 S의 사건을 X로 바준다.)
  • 이제 P(X=7)를 계산하면, "7이 나올 확률"이라는 구체적 정보를 얻는다. (확률의 정량화)

 


4. 확률밀도함수 (PDF: Probability Density Function)

  • 확률분포를 나타내는 함수. 
  • 예제: 신생아 5,000명의 몸무게를 히스토그램으로 나타내고 구간 수를 증가시키면, 매끄러운 곡선 형태의 확률밀도함수를 얻을 수 있음.

5. 연속확률분포의 형태

  1. 균일분포(Uniform Distribution)
    • 구간 [a,b]내의 값들이 동일한 확률 값을 가짐.
  2. 종 모양 분포(Bell-Shaped Distribution)
    • 특정 값을 기준으로 대칭적인 분포.
    • 대표적으로 정규분포(normal distribution).
  3. 왼쪽으로 치우친 분포(Skewed to the Left)
    • 왼쪽 꼬리가 길고 오른쪽에 높은 확률 값이 집중된 분포.
  4. 오른쪽으로 치우친 분포(Skewed to the Right)
    • 오른쪽 꼬리가 길고 왼쪽에 높은 확률 값이 집중된 분포.

 

기댓값의 의미와 정의

1. 기댓값의 정의

기댓값(Expected Value, E(X))은 확률변수 X가 취할 수 있는 값들을 확률에 따라 평균적으로 종합한 값을 말합니다.
기댓값은 확률적 실험을 무한히 반복했을 때 얻어지는 결과의 평균적인 값으로 이해할 수 있습니다.

 

 

  • 기댓값은 사건들의 확률을 고려하여 가중평균을 계산한 값입니다.
  • 확률분포확률변수를 사용하여 기댓값을 계산하며, 이는 사건의 값과 발생 확률 간의 관계를 반영합니다.
  • 기댓값은 확률적 실험에서 장기적으로 관찰되는 평균적인 결과를 나타냅니다.

 

 

계산 방법

 

 

기대값 특징