[표본조사론] 1. 표본조사 기초

통계조사

: 복잡한 사회 또는 집단의 어떤 현상을 수량화함으로써 객관적이고, 구체적인 특징을 파악하기 위한 일련의 과정

- 통계 : 어떤 집단의 특성을 수량화하여 나타내 주는 것

표본으로부터 데이터를 수집하는 방법으로 실험(experiment)와 조사(survey)를 들 수 있다.

- 실험 : 연구자가 실험환경을 통제하고 조작을 가함으로써 특정 처리의 효과를 파악하는 과정

- 조사 : 조사 대상을 통해 어떤 현상을 관찰하는 것

- 전수조사/총조사 : 통계청에서 실시하는 인구주택총조사와 같이 모집단의 모든 단위를 다 조사하는 방법, 흔히 센서스(census)라고도 한다.

- 표본조사 : 모집단의 부분집합인 표본의 단위들만을 상대로 조사하는 방법

전수조사

: 조사 대상으로 하는 집단의 모든 개개의 단위를 조사하는 방법

ex) 인구주택총조사, 농업총조사, 사업체 총조사

- 사용 목적

어떤 정책 결정의 중요한 기초자료
다른 표본조사의 기초 자료와 추출틀
모수 추정과정에서 사용

- 단점

엄청난 조사 비용 및 시간 소요
숙련된 많은 수의 조사원 필요

표본조사

: 전체 모집단 중에서 과학적인 추출방법에 따라 추출된 일부분을 대상으로 조사하여 얻어진 정보를 토대로 전체 모집단에 대한 특성을 추정하는 방법

- 장점

경제성 : 비용 절감
신속성 : 빠른 표본조사 결과를 필요로 할 경우가 있음
심도 있는 조사 가능 : 여러 항목 조사 가능
조사의 정확성 : 조사, 관리 수월
숙명적 필요성

- 단점

: 모집단을 제대로 대표하지 못하는 표본을 사용할 경우 잘못된 통계를 만들게 됨

ex) 1936년 Literary Digest사의 미국 대통령 선거 여론조사

-> 서민층이 과소 추출됨

표본조사에서의 기본 용어

- 기본단위(조사단위, 관찰단위)

: 필요한 정보를 얻기 위해 조사를 할 때 조사 대상이 되는 최소의 요소

ex) 여론조사->각 개인, 가계조사->각 가구, 농작물 생산량 조사->일정 면적의 경지

- 모집단(population)

: 조사 목적에 의하여 규정되는 모든 기본단위들의 모임

유한 모집단 / 무한 모집단 : 모집단의 기본단위 수가 유한한지 무한한지
목표 모집단 : 조사목적에 의해 개념상 규정된 모집단
조사가능 모집단 : 표본을 추출하기 위해 규정된 모집단

- 추출단위(sampling unit)

: 표본 추출을 위해 설정한 기본 단위들의 모임

기본단위와 추출단위가 일치하지 않을 수도 있음

- 추출틀(sampling frame)

: 모집단에 속하는 모든 추출단위의 목록

ex) 개인, 가구, 사업체등의 명부, 문서철, 지도

예시

경북지역 사과나무 한 그루 당 평균 수확량 조사

기본단위 : 사과나무 한 그루
목표 모집단 : 경북에 있는 모든 사과나무들
조사가능 모집단 : 경북의 등록된 과수원에 있는 사과나무들
추출단위 : 과수원
추출틀 : 경북지역 과수원 목록

표본추출법

- 표본(sample) : 모집단의 특성치를 알아보기 위하여 모집단의 기본단위 중에서 추출된 부분집합

- 표본설계(design of sample survey) : 표본조사를 위해 모집단을 잘 대표하는 표본을 뽑는 과정

표본설계 고려사항

모집단 특성에 대한 대표성을 지니면서도 경제적인 표본추출법
표본오차를 목표수준 이내로 유지하면서 비용을 최소화하는 표본 크기
효율적인 모수 추정 방식

- 확률추출법(probability sampling)

: 추출단위에 대하여 사전에 정해진 추출확률에 따라 표본을 추출하는 방법

ex) 단순임의추출법, 층화추출법, 계통추출법, 집락추출법

-> 표본이 모집단의 특성이나 구조를 잘 반영하여 조사결과를 모집단으로 일반화 가능

-> 추정량의 통계적 오차를 확률적으로 계산 가능함

- 비확률추출법(non-probability sampling)

: 추출단위가 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법

ex) 전형법, 할당법

-> 대부분 조사자의 주관적 판단에 의해 표본 추출

-> 모집단을 정확하게 규정지을 수 없는 경우, 표본오차가 큰 문제가 되지 않는 경우, 반드시 확률추출법을 사용할 필요가 없는 경우에 사용

-> 훨씬 간편하고 경제적

-> 추정값의 정확성 평가 불가, 과학적인 조사방법 X

통계 기본 개념

- 모수 : 모집단의 특성 값

ex) 모평균, 모분산, 모비율, 모총계

- 모평균 : 모집단의 중심위치의 척도

𝜇 = 𝐸(𝑦)

- 모분산 : 모집단에서 각 단위들이 모평균으로부터 흩어진 정도

=> 표본조사의 목적은 표본의 데이터로 모수를 추론하는 것

표본분포

- 표본추출변동

: 동일한 모집단에서 같은 표본추출방법으로 같은 크기의 표본을 추출할지라도 각 표본에서 계산된 추정량의 값은 표본마다 달라지는 것

- 표본분포

: 같은 크기의 확률표본을 무한 반복해서 추출할 때 각 표본으로부터 계산되는 추정량이 이루는 분포

- 중심극한정리(central limit theorem)

: 표본크기가 커지면 표본평균은 근사적으로 정규분포를 따름

추정(estimation)

: 조사 데이터를 이용하여 모수를 추측하는 것

- 바람직한 추정량의 성질

비편향성(unbiasedness) : 반복해서 표본을 추출할 때 표본으로부터 계산된 통계치가 모수를 과대 또는 과소 추정하는 경향이 없는 것
효율성(efficiency) : 추정량을 비교할 때 분산이 더 작은쪽이 효율적이라고 함

표본오차(sampling error)

: 표본에서 구한 결과와 센서스의 결과(모수)의 차이

= |모집단의 참값(모수) - 모수에 대한 추정치|

- 추정량의 표준오차

: 그 값의 크고 작음에 따라 그 추정량의 통계적 정확도를 평가하는데 이용된다.

그런데 추정량의 표준오차는 추정하고자 하는 모수가 무엇이냐에 따라 그 크기가 상대적으로 달라져서 표준오차의 크고 작음을 판단하는데 어려움이 있다.

=> 이런 이유로 상대적인 기준인 상대표준오차(RSE) 사용

- 추정량의 상대표준오차

: 추정량의 정도를 나타내는 상대적 기준

추정량의 변동계수(CV)라고도 함

'복수전공' 카테고리의 다른 글

[현대사회의 데이터와 통계학] 3. Numpy : 배열의 인덱싱과 슬라이싱 (0)	2021.10.20
[현대사회의 데이터와 통계학] 2. NumPy : 배열의 연산 (0)	2021.10.20
[표본조사론] 2. 단순임의추출법 (0)	2021.10.20
[현대사회의 데이터와 통계학] 1. NumPy : 배열 생성하기 (0)	2021.10.07
[실험계획법] 1. 실험계획법의 개념 (0)	2021.09.24

블로그의 정보

Hi Rev

Rev_