이전 글에서 검정력(Power)을 1−β로 간단히 소개했는데 오늘은 그 개념을 실무 질문과 연결해 깊이 파고든다. A/B 테스트를 설계할 때 가장 먼저 받는 질문이 있다. "이 테스트, 몇 명한테 돌려야 해요?" 이 질문에 제대로 답하려면 검정력 분석(Power Analysis)을 알아야 한다.
1. 검정력(Power), 다시 짚고 가기
검정력은 "실제로 효과가 있을 때, 그것을 올바르게 감지할 확률"이다. 수식으로는 Power = 1 − β이며, β는 제2종 오류(False Negative)다.
예를 들어 검정력이 0.80이라면, 진짜 효과가 존재하는 상황에서 실험을 반복할 때 80%의 경우에는 효과를 감지하고 20%의 경우에는 감지하지 못한다는 뜻이다.

2. 검정력을 결정하는 4가지 변수
검정력 분석에는 서로 맞물려 있는 4가지 변수가 등장한다. 이 중 3가지를 알면 나머지 1가지를 계산할 수 있다는 것이 핵심이다.
(1) 유의수준 (α, Significance Level): 보통 0.05로 설정. 낮출수록 검정력이 떨어진다.
(2) 검정력 (Power, 1−β): 목표로 하는 감지 확률. 보통 0.80 이상을 목표로 한다.
(3) 효과 크기 (Effect Size): 감지하려는 효과의 크기. 작은 효과일수록 더 많은 표본이 필요하다.
(4) 표본 크기 (Sample Size, n): 최종적으로 구하려는 값. 3가지가 정해지면 이것이 계산된다.
실무에서 가장 흔한 사용 방식은 "α, Power, Effect Size를 먼저 정하고 → 필요한 표본 크기를 계산하는 것"이다. 표본이 이미 고정된 경우에는 반대로 그 표본으로 감지 가능한 최소 효과 크기를 계산하기도 한다.
3. 효과 크기(Effect Size)
효과 크기는 두 집단 간의 차이가 "얼마나 큰지"를 표준화된 수치로 나타낸 것이다. 단순한 평균 차이는 단위에 따라 해석이 달라지지만 효과 크기는 단위에 무관하게 비교할 수 있다. 평균 비교 실험에서 가장 많이 쓰이는 지표는 Cohen's d다. Cohen's d = (집단1 평균 − 집단2 평균) / 풀링된 표준편차 Cohen이 제안한 효과 크기 해석 기준은 아래와 같다.
| Cohen's d | 효과 크기 해석 |
| 0.20 미만 | 매우 작음 (Very Small) |
| 0.20 ~ 0.49 | 작음 (Small) |
| 0.50 ~ 0.79 | 보통 (Medium) |
| 0.80 이상 | 큼 (Large) |
중요한 점은 이 기준이 "절대적인 기준"이 아니라는 것이다. 분야마다 실험 맥락마다 "의미 있는 효과"의 크기가 다르다.
4. 표본 크기 계산 절차 — A/B 테스트 예시
실제 A/B 테스트 설계 상황을 예시로 살펴보자.
상황: 전자상거래 사이트에서 버튼 색상을 바꾸는 A/B 테스트를 준비 중이다. 현재 클릭률(CTR)은 10%다. 색상 변경 후 CTR이 12%로 오르면 의미 있다고 판단한다.
Step 1 — 효과 크기 계산
비율 비교에서는 Cohen's h를 쓰거나, 두 비율의 차이를 효과 크기로 간주한다. 이 경우 10% → 12%는 절대 차이 2%p, 상대 차이 20%다.
Step 2 — 3가지 변수 설정
α = 0.05 (유의수준) Power = 0.80 (목표 검정력) Effect Size = 두 비율의 차이 기반으로 계산 (또는 Cohen's h 사용)
Step 3 — 필요 표본 크기 계산
이 값을 G*Power나 온라인 계산기에 입력하면 그룹당 약 3,800명 이상이 필요하다는 결과가 나온다. A(대조군)와 B(실험군) 양쪽에 각각 3,800명이 필요하니, 총 7,600명 이상의 사용자가 이 테스트에 참여해야 통계적으로 신뢰할 수 있는 결론을 낼 수 있다.
5. 표본 수를 잘못 잡으면 어떻게 될까
표본이 너무 적은 경우 (Under-powered)
검정력이 낮아진다. 즉, 실제로 효과가 있어도 감지하지 못할 가능성이 높아진다. A/B 테스트로 치면 버튼 색상이 실제로 효과가 있음에도 "차이 없음"이라는 잘못된 결론을 내릴 수 있다. 이것이 바로 제2종 오류(β)다.
표본이 너무 많은 경우 (Over-powered)
시간과 비용이 낭비된다는 것이 첫 번째 문제다. 두 번째 문제는 더 중요하다. 표본이 너무 크면 실질적으로 의미 없는 아주 작은 차이도 통계적으로 유의하게 나온다.
결론: 표본 크기는 많을수록 무조건 좋은 것이 아니다. 감지하려는 효과 크기 기준으로 신뢰할 수 있는 최소 표본을 계산하는 것이 올바른 접근이다.
6. G*Power (무료 검정력 분석 도구)
표본 크기 계산을 직접 손으로 하는 것은 번거롭다. 무료로 널리 사용되는 도구는 G*Power다.
G*Power 공식 다운로드 페이지 (https://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3)
G*Power
G*Power is a tool to compute statistical power analyses for many different t tests, F tests, χ2 tests, z tests and some exact tests. G*Power can also be used to compute effect sizes and to display graphically the results of power analyses.
www.psychologie.hhu.de
G*Power에서 t-test, ANOVA, 카이제곱 검정, 회귀분석 등 다양한 검정 방식에 대해 아래 4가지 변수 중 3가지를 입력하면 나머지 하나를 자동으로 계산해 준다.
- α (유의수준)
- Power (검정력)
- Effect Size (효과 크기)
- Sample Size (표본 크기)
Python에서 동일한 계산을 하려면 statsmodels 라이브러리의 TTestIndPower를 사용할 수 있다. 예시 코드는 GeeksforGeeks의 Introduction to Power Analysis in Python (https://www.geeksforgeeks.org/python/introduction-to-power-analysis-in-python/) 을 참고하면 된다.
7. 정리
이번 글에서 배운 것을 정리하면 아래와 같다.
- 검정력(Power) = 1 − β이며 통상 0.80 이상을 목표로 한다.
- 검정력은 α(유의수준), 효과 크기, 표본 크기, 이 세 가지와 서로 연결되어 있다. 셋을 알면 넷째를 구할 수 있다.
- 효과 크기(Cohen's d)는 두 집단 차이의 표준화된 크기다. 작은 효과를 감지하려면 더 많은 표본이 필요하다.
- 표본이 너무 적으면 진짜 효과를 놓치고(β 오류) 너무 많으면 의미 없는 차이도 유의하게 나온다.
- G*Power 같은 무료 도구를 활용하면 표본 크기 계산을 쉽게 할 수 있다.
'Data Analysis > Statistics' 카테고리의 다른 글
| [기초통계] 신뢰구간(Confidence Interval) — "95% 확신한다"는 게 정확히 무슨 뜻일까 (1) | 2026.03.07 |
|---|---|
| [기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0) | 2026.02.24 |
| [기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가) (0) | 2026.02.20 |
| [기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준) (2) | 2026.02.19 |
| [기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0) | 2026.02.03 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.