[실험계획법] 2. 기초적 통계이론
by Rev_확률표본과 표본분포
기초 통계 이론에서 기본적으로 사용되는 용어로 다음과 같은 것들이 있다.
- 모집단(population) : 데이터의 대상이 되는 전체 집단
- 표본(sample) : 모집단으로부터 일부분의 데이터를 랜덤하게 추출하여 모집단을 대표하는 것으로 삼는 일부의 데이터
- 표본설계(sampling design) : 모집단에서 표본을 추출하기 위한 설계
- 확률표본, 확률변수와 확률분포 개념
- 확률표본(random sample) : 모집단에 속한 표본점들이 표본으로 추출될 확률이 모두 동일하다는 조건하에 추출된 표본
- 확률변수(random variable) : 시행에 결과에 따라 값이 결정되는 변수
- 확률분포(probability distribution) : 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포와 연속 확률 분포 중 하나에 속하며, 둘 중 어디에도 속하지 않는 경우도 존재한다.
확률변수 X의 확률분포가 p(x)로 주어졌을 때 확률 변수의 기대값을 E(X)로 나타낸다.
기대값 E(X)는 확률변수 X의 평균 μ를 의미한다.
단일표본검정
하나의 그룹에 대한 표본을 검정하는 것이다.
with(mtcars, t.test(mpg[am==0], mu=20, alternative="less"))
mtcars 자료를 이용하여 1973년부터 1974년까지 미국에서 생산된 자동차들의 평균 연비는 갤런당 20mpg로 알려져 있다.
수동미션 차량들이 자동미션 차량보다 연비가 좋다는 것을 밝히기 위해 수동 미션 차량들의 연비는 20mpg보다 크다고 할 수 있는지 유의수준 0.05에서 검정한다.
t.test()에서 mu라는 상수값과 샘플의 평균을 비교할 수 있다. 또한 R에서는 디폴트로 양측검정을 하게 되는데, alternative로 단측검정을 수행할 수 있다.("greater"(우측) 또는 "less"(좌측))
짝을 이룬 표본의 평균 검정
R 내장 자료인 sleep은 서로 다른 두 종류의 수면제로 각각의 약을 투여하고 수면시간의 증감을 조사하였다.
서로 다른 두 약물은 수면 시간의 증감에 차이가 있는지 유의수준 0.05에서 검정하시오.
with(sleep, t.test(extra[group==1], extra[group==2], paired=TRUE))
paired=TRUE는 쌍체 검정에서 사용하는 옵션이다.
독립 이표본의 평균 비교
x1 <- c(1.1, 2.3, 4.3, 2.2, 5.3)
x2 <- c(2.3, 4.3, 3.5)
t.test(x1, x2, var.equal=TRUE, alternative="two.sided") # 등분산 경우
t.test(x1, x2, var.equal=FALSE, conf.level=0.95) # 이분산 경우
여기서 등분산 검정을 해주어야 하는데,
a <- c(61,60,56,63,56,63,59,56,44,61)
b <- c(55,54,47,59,51,61,57,54,62,58)
var.test(a,b)
위와 같이 진행해 줄 수 있다.
귀무가설은 등분산이라는 가정이다.
'복수전공' 카테고리의 다른 글
[실험계획법] 3. 일원배치법 (0) | 2021.11.01 |
---|---|
[표본조사론] 중간고사 대비 (0) | 2021.11.01 |
[SAS 자료분석] 2. SAS 데이터 단계 (0) | 2021.10.31 |
[범주형 데이터분석] 3. 주성분분석(PCA) (0) | 2021.10.30 |
[데이터 시각화] 5. 모자이크 플롯 (0) | 2021.10.27 |
블로그의 정보
Hi Rev
Rev_