분산 분석보고서
분산분석
제1절 기본 개념 및 사용 목적
단일 평균 검정과 두 평균 간 차이 검정은 집단이 하나이거나 두 개 일 경우에 활용한다. 그러나 분석 대상이 세 집단 이상일 경우에는 분산분석(ANOVA: ANalysis Of VAriance)을 활용해야 한다.
분산분석은 평균값을 기초로 하여 여러 집단을 비교하고, 이들 집단 간에 차이점이 있는지를 검정하는 기법이다. 하나의 변수를 상대로 요인 요인(factor)은 인자라고도 하며, 어떤 실험의 자료를 배치하는 요인은 여러 개의 배반 집합으로 나누는 분할의 역할을 한다. 예를 들어 학력을 요인이라 한다면 학력은 초졸, 중졸, 고졸, 대졸, 대학원졸이라는 다섯 가지 수준으로 구성된다는 것을 의미한다.
을 연구하고자 한다면 단일 변량 분산분석(ANOVA) 기법을 이용해야 한다. 반면 하나의 요인으로 두 개 이상의 변수를 동시에 관찰하고자 할 때는 다변량 분산분석(MANOVA: Multivariate ANalysis Of VAriance)을 이용해야 한다.
ANOVA와 MANOVA의 차이는 실험 개체를 대상으로 놓고 측정되는 종속변수가 하나인가 혹은 복수인가에 따라 구분된다. 그리고 단일 변량 분산분석은 요인의 수에 따라서 일원분산분석(one-way ANOVA)과 이원분산분석(two-way ANOVA)으로 구분된다. 마찬가지로 다변량 분산분석도 요인의 수에 따라 일원 다변량 분산분석과 이원 다변량 분산분석으로 구분된다.
제2절 분산분석의 기본 원리
1. 기본원리
분산분석의 기본 원리는 집단 간의 차이가 지단 내의 차이보다 크게 나타날 때 집단 간에 차이가 있다고 설명하는 것이다. 즉 자동차 회사들 간의 안전성의 차이가 각 회사별 자동차의 안전성보다 크게 나타날 때 집단 간에는 차이가 있다고 설명하는 것이다. 이와 같이 세 집단 이상 간에 차이가 있는 지의 여부를 분석하는 데 활용하는 통계기법이 분산분석인 것이다.
2. 전제 조건
분산분석에서 비교하고자 하는 대상을 독립변수라고 하고, 비교의 기준이 되는 변수를 종속변수라고 한다.
독립변수는 명목척도를 가진 변수여야 한다. 성별, 종교별, 학력별, 지역별, 직업별 등과 같이 범위가 제한적이어야 한다. 서열 척도를 가진 경우에도 독립변수가 될수 있다. 반면 종속변수는 비교의 기준이 되어야 하므로 수치화가 용이할 뿐만 아니라 데이터의 내용도 다양해야 한다. 따라서 등간 척도나 비율 척도가 되어야 한다.
분산분석을 사용하기 위해서는 첫째, 각 모집단의 분산은 동일해야 한다는 등분산성(homogeneity)의 가정, 둘째, 각 모집단 들은 상호 독립적이어야 한다는 가정, 셋째, 각 표본 집단이 추출된 모집단들은 정규 분포를 이루고 있어야 한다는 가정을 충족해야 한다. 그러나 실제 검정에서는 각 모집단이 상호 독립적이라는 가정만 만족시킨 경우 다른 가정을 충족시키지 못해도 결과에는 큰 차이가 없다. 또한 비교 대상이 되는 집단별 케이스의 수가 클 경우에 이러한 가정을 만족시키는 경우가 많기 때문에 집단별 케이스 수를 많게 하는 것이 통계 기법에서는 중요하다.

분야