[기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까)

[기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까)Data Analysis/Statistics2026. 2. 20. 19:44@모모띠

Table of Contents

이전 글에서 검정력(Power)을 1−β로 간단히 소개했는데 오늘은 그 개념을 실무 질문과 연결해 깊이 파고든다. A/B 테스트를 설계할 때 가장 먼저 받는 질문이 있다. "이 테스트, 몇 명한테 돌려야 해요?" 이 질문에 제대로 답하려면 검정력 분석(Power Analysis)을 알아야 한다.

1. 검정력(Power), 다시 짚고 가기

검정력은 "실제로 효과가 있을 때, 그것을 올바르게 감지할 확률"이다. 수식으로는 Power = 1 − β이며, β는 제2종 오류(False Negative)다.

예를 들어 검정력이 0.80이라면, 진짜 효과가 존재하는 상황에서 실험을 반복할 때 80%의 경우에는 효과를 감지하고 20%의 경우에는 감지하지 못한다는 뜻이다.

2. 검정력을 결정하는 4가지 변수

검정력 분석에는 서로 맞물려 있는 4가지 변수가 등장한다. 이 중 3가지를 알면 나머지 1가지를 계산할 수 있다는 것이 핵심이다.

(1) 유의수준 (α, Significance Level): 보통 0.05로 설정. 낮출수록 검정력이 떨어진다.

(2) 검정력 (Power, 1−β): 목표로 하는 감지 확률. 보통 0.80 이상을 목표로 한다.

(3) 효과 크기 (Effect Size): 감지하려는 효과의 크기. 작은 효과일수록 더 많은 표본이 필요하다.

(4) 표본 크기 (Sample Size, n): 최종적으로 구하려는 값. 3가지가 정해지면 이것이 계산된다.

실무에서 가장 흔한 사용 방식은 "α, Power, Effect Size를 먼저 정하고 → 필요한 표본 크기를 계산하는 것"이다. 표본이 이미 고정된 경우에는 반대로 그 표본으로 감지 가능한 최소 효과 크기를 계산하기도 한다.

3. 효과 크기(Effect Size)

효과 크기는 두 집단 간의 차이가 "얼마나 큰지"를 표준화된 수치로 나타낸 것이다. 단순한 평균 차이는 단위에 따라 해석이 달라지지만 효과 크기는 단위에 무관하게 비교할 수 있다. 평균 비교 실험에서 가장 많이 쓰이는 지표는 Cohen's d다. Cohen's d = (집단1 평균 − 집단2 평균) / 풀링된 표준편차 Cohen이 제안한 효과 크기 해석 기준은 아래와 같다.

Cohen's d	효과 크기 해석
0.20 미만	매우 작음 (Very Small)
0.20 ~ 0.49	작음 (Small)
0.50 ~ 0.79	보통 (Medium)
0.80 이상	큼 (Large)

중요한 점은 이 기준이 "절대적인 기준"이 아니라는 것이다. 분야마다 실험 맥락마다 "의미 있는 효과"의 크기가 다르다.

4. 표본 크기 계산 절차 — A/B 테스트 예시

실제 A/B 테스트 설계 상황을 예시로 살펴보자.

상황: 전자상거래 사이트에서 버튼 색상을 바꾸는 A/B 테스트를 준비 중이다. 현재 클릭률(CTR)은 10%다. 색상 변경 후 CTR이 12%로 오르면 의미 있다고 판단한다.

Step 1 — 효과 크기 계산

비율 비교에서는 Cohen's h를 쓰거나, 두 비율의 차이를 효과 크기로 간주한다. 이 경우 10% → 12%는 절대 차이 2%p, 상대 차이 20%다.

Step 2 — 3가지 변수 설정

α = 0.05 (유의수준) Power = 0.80 (목표 검정력) Effect Size = 두 비율의 차이 기반으로 계산 (또는 Cohen's h 사용)

Step 3 — 필요 표본 크기 계산

이 값을 G*Power나 온라인 계산기에 입력하면 그룹당 약 3,800명 이상이 필요하다는 결과가 나온다. A(대조군)와 B(실험군) 양쪽에 각각 3,800명이 필요하니, 총 7,600명 이상의 사용자가 이 테스트에 참여해야 통계적으로 신뢰할 수 있는 결론을 낼 수 있다.

5. 표본 수를 잘못 잡으면 어떻게 될까

표본이 너무 적은 경우 (Under-powered)

검정력이 낮아진다. 즉, 실제로 효과가 있어도 감지하지 못할 가능성이 높아진다. A/B 테스트로 치면 버튼 색상이 실제로 효과가 있음에도 "차이 없음"이라는 잘못된 결론을 내릴 수 있다. 이것이 바로 제2종 오류(β)다.

표본이 너무 많은 경우 (Over-powered)

시간과 비용이 낭비된다는 것이 첫 번째 문제다. 두 번째 문제는 더 중요하다. 표본이 너무 크면 실질적으로 의미 없는 아주 작은 차이도 통계적으로 유의하게 나온다.

결론: 표본 크기는 많을수록 무조건 좋은 것이 아니다. 감지하려는 효과 크기 기준으로 신뢰할 수 있는 최소 표본을 계산하는 것이 올바른 접근이다.

6. G*Power (무료 검정력 분석 도구)

표본 크기 계산을 직접 손으로 하는 것은 번거롭다. 무료로 널리 사용되는 도구는 G*Power다.

G*Power 공식 다운로드 페이지 (https://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3)

G*Power

G*Power is a tool to compute statistical power analyses for many different t tests, F tests, χ2 tests, z tests and some exact tests. G*Power can also be used to compute effect sizes and to display graphically the results of power analyses.

www.psychologie.hhu.de

G*Power에서 t-test, ANOVA, 카이제곱 검정, 회귀분석 등 다양한 검정 방식에 대해 아래 4가지 변수 중 3가지를 입력하면 나머지 하나를 자동으로 계산해 준다.

α (유의수준)
Power (검정력)
Effect Size (효과 크기)
Sample Size (표본 크기)

Python에서 동일한 계산을 하려면 statsmodels 라이브러리의 TTestIndPower를 사용할 수 있다. 예시 코드는 GeeksforGeeks의 Introduction to Power Analysis in Python (https://www.geeksforgeeks.org/python/introduction-to-power-analysis-in-python/) 을 참고하면 된다.

7. 정리

이번 글에서 배운 것을 정리하면 아래와 같다.

검정력(Power) = 1 − β이며 통상 0.80 이상을 목표로 한다.
검정력은 α(유의수준), 효과 크기, 표본 크기, 이 세 가지와 서로 연결되어 있다. 셋을 알면 넷째를 구할 수 있다.
효과 크기(Cohen's d)는 두 집단 차이의 표준화된 크기다. 작은 효과를 감지하려면 더 많은 표본이 필요하다.
표본이 너무 적으면 진짜 효과를 놓치고(β 오류) 너무 많으면 의미 없는 차이도 유의하게 나온다.
G*Power 같은 무료 도구를 활용하면 표본 크기 계산을 쉽게 할 수 있다.

'Data Analysis > Statistics' 카테고리의 다른 글

[기초통계] 신뢰구간(Confidence Interval) — "95% 확신한다"는 게 정확히 무슨 뜻일까 (1)	2026.03.07
[기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0)	2026.02.24
[기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가) (0)	2026.02.20
[기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준) (2)	2026.02.19
[기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0)	2026.02.03