Rev Notebook

[실험계획법] 2. 기초적 통계이론

by Rev_

확률표본과 표본분포

기초 통계 이론에서 기본적으로 사용되는 용어로 다음과 같은 것들이 있다.

  • 모집단(population) : 데이터의 대상이 되는 전체 집단
  • 표본(sample) : 모집단으로부터 일부분의 데이터를 랜덤하게 추출하여 모집단을 대표하는 것으로 삼는 일부의 데이터
  • 표본설계(sampling design) : 모집단에서 표본을 추출하기 위한 설계

 

  • 확률표본, 확률변수와 확률분포 개념

-  확률표본(random sample) : 모집단에 속한 표본점들이 표본으로 추출될 확률이 모두 동일하다는 조건하에 추출된 표본

-  확률변수(random variable) : 시행에 결과에 따라 값이 결정되는 변수

-  확률분포(probability distribution) : 확률 변수가 특정한 값을 가질 확률을 나타내는 함수

 확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포연속 확률 분포 중 하나에 속하며, 둘 중 어디에도 속하지 않는 경우도 존재한다.

 

확률변수 X의 확률분포가 p(x)로 주어졌을 때 확률 변수의 기대값을 E(X)로 나타낸다.

기대값 E(X)는 확률변수 X의 평균 μ를 의미한다.

 

단일표본검정

하나의 그룹에 대한 표본을 검정하는 것이다.

with(mtcars, t.test(mpg[am==0], mu=20, alternative="less"))

mtcars 자료를 이용하여 1973년부터 1974년까지 미국에서 생산된 자동차들의 평균 연비는 갤런당 20mpg로 알려져 있다.

수동미션 차량들이 자동미션 차량보다 연비가 좋다는 것을 밝히기 위해 수동 미션 차량들의 연비는 20mpg보다 크다고 할 수 있는지 유의수준 0.05에서 검정한다.

t.test()에서 mu라는 상수값과 샘플의 평균을 비교할 수 있다. 또한 R에서는 디폴트로 양측검정을 하게 되는데, alternative로 단측검정을 수행할 수 있다.("greater"(우측) 또는 "less"(좌측))

 

짝을 이룬 표본의 평균 검정

R 내장 자료인 sleep은 서로 다른 두 종류의 수면제로 각각의 약을 투여하고 수면시간의 증감을 조사하였다.

서로 다른 두 약물은 수면 시간의 증감에 차이가 있는지 유의수준 0.05에서 검정하시오.

with(sleep, t.test(extra[group==1], extra[group==2], paired=TRUE))

paired=TRUE는 쌍체 검정에서 사용하는 옵션이다.

 

독립 이표본의 평균 비교

x1 <- c(1.1, 2.3, 4.3, 2.2, 5.3)
x2 <- c(2.3, 4.3, 3.5)
t.test(x1, x2, var.equal=TRUE, alternative="two.sided") # 등분산 경우
t.test(x1, x2, var.equal=FALSE, conf.level=0.95) # 이분산 경우

여기서 등분산 검정을 해주어야 하는데,

a <- c(61,60,56,63,56,63,59,56,44,61) 
b <- c(55,54,47,59,51,61,57,54,62,58) 
var.test(a,b)

위와 같이 진행해 줄 수 있다.

귀무가설은 등분산이라는 가정이다.

블로그의 정보

Hi Rev

Rev_

활동하기