[표본조사론] 1. 표본조사 기초
by Rev_통계조사
: 복잡한 사회 또는 집단의 어떤 현상을 수량화함으로써 객관적이고, 구체적인 특징을 파악하기 위한 일련의 과정
- 통계 : 어떤 집단의 특성을 수량화하여 나타내 주는 것
표본으로부터 데이터를 수집하는 방법으로 실험(experiment)와 조사(survey)를 들 수 있다.
- 실험 : 연구자가 실험환경을 통제하고 조작을 가함으로써 특정 처리의 효과를 파악하는 과정
- 조사 : 조사 대상을 통해 어떤 현상을 관찰하는 것
- 전수조사/총조사 : 통계청에서 실시하는 인구주택총조사와 같이 모집단의 모든 단위를 다 조사하는 방법, 흔히 센서스(census)라고도 한다.
- 표본조사 : 모집단의 부분집합인 표본의 단위들만을 상대로 조사하는 방법
전수조사
: 조사 대상으로 하는 집단의 모든 개개의 단위를 조사하는 방법
ex) 인구주택총조사, 농업총조사, 사업체 총조사
- 사용 목적
- 어떤 정책 결정의 중요한 기초자료
- 다른 표본조사의 기초 자료와 추출틀
- 모수 추정과정에서 사용
- 단점
- 엄청난 조사 비용 및 시간 소요
- 숙련된 많은 수의 조사원 필요
표본조사
: 전체 모집단 중에서 과학적인 추출방법에 따라 추출된 일부분을 대상으로 조사하여 얻어진 정보를 토대로 전체 모집단에 대한 특성을 추정하는 방법
- 장점
- 경제성 : 비용 절감
- 신속성 : 빠른 표본조사 결과를 필요로 할 경우가 있음
- 심도 있는 조사 가능 : 여러 항목 조사 가능
- 조사의 정확성 : 조사, 관리 수월
- 숙명적 필요성
- 단점
: 모집단을 제대로 대표하지 못하는 표본을 사용할 경우 잘못된 통계를 만들게 됨
ex) 1936년 Literary Digest사의 미국 대통령 선거 여론조사
-> 서민층이 과소 추출됨
표본조사에서의 기본 용어
- 기본단위(조사단위, 관찰단위)
: 필요한 정보를 얻기 위해 조사를 할 때 조사 대상이 되는 최소의 요소
ex) 여론조사->각 개인, 가계조사->각 가구, 농작물 생산량 조사->일정 면적의 경지
- 모집단(population)
: 조사 목적에 의하여 규정되는 모든 기본단위들의 모임
- 유한 모집단 / 무한 모집단 : 모집단의 기본단위 수가 유한한지 무한한지
- 목표 모집단 : 조사목적에 의해 개념상 규정된 모집단
- 조사가능 모집단 : 표본을 추출하기 위해 규정된 모집단
- 추출단위(sampling unit)
: 표본 추출을 위해 설정한 기본 단위들의 모임
기본단위와 추출단위가 일치하지 않을 수도 있음
- 추출틀(sampling frame)
: 모집단에 속하는 모든 추출단위의 목록
ex) 개인, 가구, 사업체등의 명부, 문서철, 지도
예시
경북지역 사과나무 한 그루 당 평균 수확량 조사
- 기본단위 : 사과나무 한 그루
- 목표 모집단 : 경북에 있는 모든 사과나무들
- 조사가능 모집단 : 경북의 등록된 과수원에 있는 사과나무들
- 추출단위 : 과수원
- 추출틀 : 경북지역 과수원 목록
표본추출법
- 표본(sample) : 모집단의 특성치를 알아보기 위하여 모집단의 기본단위 중에서 추출된 부분집합
- 표본설계(design of sample survey) : 표본조사를 위해 모집단을 잘 대표하는 표본을 뽑는 과정
표본설계 고려사항
- 모집단 특성에 대한 대표성을 지니면서도 경제적인 표본추출법
- 표본오차를 목표수준 이내로 유지하면서 비용을 최소화하는 표본 크기
- 효율적인 모수 추정 방식
- 확률추출법(probability sampling)
: 추출단위에 대하여 사전에 정해진 추출확률에 따라 표본을 추출하는 방법
ex) 단순임의추출법, 층화추출법, 계통추출법, 집락추출법
-> 표본이 모집단의 특성이나 구조를 잘 반영하여 조사결과를 모집단으로 일반화 가능
-> 추정량의 통계적 오차를 확률적으로 계산 가능함
- 비확률추출법(non-probability sampling)
: 추출단위가 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법
ex) 전형법, 할당법
-> 대부분 조사자의 주관적 판단에 의해 표본 추출
-> 모집단을 정확하게 규정지을 수 없는 경우, 표본오차가 큰 문제가 되지 않는 경우, 반드시 확률추출법을 사용할 필요가 없는 경우에 사용
-> 훨씬 간편하고 경제적
-> 추정값의 정확성 평가 불가, 과학적인 조사방법 X
통계 기본 개념
- 모수 : 모집단의 특성 값
ex) 모평균, 모분산, 모비율, 모총계
- 모평균 : 모집단의 중심위치의 척도
𝜇 = 𝐸(𝑦)
- 모분산 : 모집단에서 각 단위들이 모평균으로부터 흩어진 정도
=> 표본조사의 목적은 표본의 데이터로 모수를 추론하는 것
표본분포
- 표본추출변동
: 동일한 모집단에서 같은 표본추출방법으로 같은 크기의 표본을 추출할지라도 각 표본에서 계산된 추정량의 값은 표본마다 달라지는 것
- 표본분포
: 같은 크기의 확률표본을 무한 반복해서 추출할 때 각 표본으로부터 계산되는 추정량이 이루는 분포
- 중심극한정리(central limit theorem)
: 표본크기가 커지면 표본평균은 근사적으로 정규분포를 따름
추정(estimation)
: 조사 데이터를 이용하여 모수를 추측하는 것
- 바람직한 추정량의 성질
- 비편향성(unbiasedness) : 반복해서 표본을 추출할 때 표본으로부터 계산된 통계치가 모수를 과대 또는 과소 추정하는 경향이 없는 것
- 효율성(efficiency) : 추정량을 비교할 때 분산이 더 작은쪽이 효율적이라고 함
표본오차(sampling error)
: 표본에서 구한 결과와 센서스의 결과(모수)의 차이
= |모집단의 참값(모수) - 모수에 대한 추정치|
- 추정량의 표준오차
: 그 값의 크고 작음에 따라 그 추정량의 통계적 정확도를 평가하는데 이용된다.
그런데 추정량의 표준오차는 추정하고자 하는 모수가 무엇이냐에 따라 그 크기가 상대적으로 달라져서 표준오차의 크고 작음을 판단하는데 어려움이 있다.
=> 이런 이유로 상대적인 기준인 상대표준오차(RSE) 사용
- 추정량의 상대표준오차
: 추정량의 정도를 나타내는 상대적 기준
추정량의 변동계수(CV)라고도 함
'복수전공' 카테고리의 다른 글
[현대사회의 데이터와 통계학] 3. Numpy : 배열의 인덱싱과 슬라이싱 (0) | 2021.10.20 |
---|---|
[현대사회의 데이터와 통계학] 2. NumPy : 배열의 연산 (0) | 2021.10.20 |
[표본조사론] 2. 단순임의추출법 (0) | 2021.10.20 |
[현대사회의 데이터와 통계학] 1. NumPy : 배열 생성하기 (0) | 2021.10.07 |
[실험계획법] 1. 실험계획법의 개념 (0) | 2021.09.24 |
블로그의 정보
Hi Rev
Rev_