지난 글에서 유의수준(α)을 다루면서 이런 말을 했습니다. "α를 낮출수록 다른 리스크가 올라간다." 이번엔 그 얘기를 제대로 해보려 합니다. 가설검정은 완벽하지 않습니다. 아무리 꼼꼼하게 설계해도 항상 두 종류의 실수를 범할 가능성이 있어요. 하나는 없는 효과를 있다고 결론 내리는 실수, 다른 하나는 있는 효과를 놓치는 실수입니다. 이 둘이 바로 제1종 오류와 제2종 오류입니다.
그리고 이 두 오류는 동시에 줄이는 게 불가능합니다. 하나를 줄이면 반드시 다른 하나가 올라갑니다. 이 트레이드오프를 이해하는 게 이번 글의 핵심입니다.
1. 두 오류의 정의
제1종 오류(Type I Error)는 귀무가설이 실제로 참인데 잘못 기각하는 실수입니다. "없는 효과를 있다고 결론 낸다"고 이해하면 됩니다. 이 오류를 범할 확률이 바로 유의수준 α입니다. α = 0.05로 설정했다면 귀무가설이 참이어도 5% 확률로 이 오류를 범할 수 있다는 뜻이에요.
제2종 오류(Type II Error)는 귀무가설이 실제로 거짓인데 기각하지 못하는 실수입니다. "있는 효과를 놓친다"는 의미입니다. 이 오류를 범할 확률은 β(베타)로 표기합니다.

정리하면 이렇습니다.
- 제1종 오류 (α): 귀무가설이 참인데 기각 → "없는 걸 있다고 함" → False Positive
- 제2종 오류 (β): 귀무가설이 거짓인데 기각 못 함 → "있는 걸 놓침" → False Negative
2. 4가지 가능한 결론과 오류의 발생 위치
가설검정에서 나올 수 있는 결론은 총 네 가지입니다. 실제 현실(귀무가설이 참인지 거짓인지)과 우리가 내린 결론(기각했는지 유지했는지)의 조합이에요.
| 귀무가설이 실제로 참 | 귀무가설이 실제로 거짓 | |
| 귀무가설 기각 | ❌ 제1종 오류 (α) | ✅ 올바른 결론 (검정력, 1-β) |
| 귀무가설 유지 | ✅ 올바른 결론 (1-α) | ❌ 제2종 오류 (β) |
오류는 항상 "현실과 결론이 어긋날 때" 발생합니다. 표의 대각선 방향으로 생각하면 이해하기 쉬워요.
구체적인 예로 이해해보겠습니다. 신규 랜딩페이지 A/B 테스트를 설계했다고 가정합니다. 귀무가설은 "신규 페이지와 기존 페이지의 전환율은 같다"입니다.
제1종 오류가 발생하는 상황은 이렇습니다. 실제로는 두 페이지의 전환율이 같은데 표본의 우연한 변동 때문에 p < 0.05가 나와 "신규 페이지가 더 낫다"고 잘못 결론 내리는 경우입니다. 효과가 없는 페이지를 전사 배포하는 결과로 이어질 수 있어요.
제2종 오류가 발생하는 상황은 이렇습니다. 실제로는 신규 페이지의 전환율이 더 높은데 표본이 너무 작아서 차이를 통계적으로 잡아내지 못하고 "차이 없다"는 결론을 내리는 경우입니다. 진짜 효과 있는 개선을 포기하게 되죠.
3. α와 β의 트레이드오프
α(유의수준)를 낮추면 제1종 오류를 줄일 수 있지만 대신 β(제2종 오류 확률)가 올라갑니다. 반대도 마찬가지입니다.
샘플 크기를 고정한 상태에서 두 오류를 동시에 줄이는 방법은 없습니다. 유일한 해결책은 표본 크기를 늘리는 것입니다. 데이터가 많아질수록 두 오류 모두 줄일 수 있어요.

α를 0.05에서 0.01로 낮추면 기각역이 더 좁아집니다. 그만큼 "유의하다"는 결론을 내리기 어려워지고 결과적으로 실제 효과가 있어도 잡아내지 못하는 경우(β)가 늘어나요. 유의수준을 좁게 설정할수록 이 현상은 심해집니다!
4. 검정력(Power)이란
검정력(Statistical Power)은 1 - β로 정의됩니다. 귀무가설이 실제로 거짓일 때 이를 올바르게 기각할 확률이에요. 즉, "실제 효과가 있을 때 그걸 제대로 잡아내는 능력"입니다.
검정력은 보통 0.80(80%) 이상을 목표로 합니다. 검정력이 낮으면 실제로 효과가 있어도 통계적으로 유의한 결과가 안 나올 수 있어요. A/B 테스트를 열심히 설계했는데 표본이 부족해서 진짜 차이를 못 잡아내는 경우가 대표적입니다.
검정력에 영향을 주는 요소는 세 가지입니다.
첫째, 표본 크기(n)입니다. 클수록 검정력이 올라갑니다.
둘째, 효과 크기(Effect Size)입니다. 실제 차이가 클수록 더 잘 잡아낼 수 있습니다.
셋째, 유의수준(α)입니다. α를 높이면 검정력이 올라가지만 제1종 오류 리스크도 함께 올라갑니다.
5. 실무에서 어떤 오류가 더 위험한가
두 오류 중 어느 것이 더 치명적인지는 맥락에 따라 완전히 달라집니다.
제1종 오류가 더 위험한 상황은 잘못된 결론이 큰 비용을 초래할 때입니다. 효과 없는 신약을 효과 있다고 승인하거나, 효과 없는 마케팅 캠페인을 전사 롤아웃하는 경우가 여기에 해당합니다. 이럴 땐 α를 낮게 잡아야 합니다.
제2종 오류가 더 위험한 상황은 효과를 놓쳤을 때의 손실이 클 때입니다. 실제로 효과 있는 암 치료제를 "유의하지 않다"며 포기하거나, 전환율을 올리는 기능 개선을 무시하는 경우입니다. 이럴 땐 검정력(1-β)을 충분히 높이는 것이 중요합니다.
6. 정리
t-test와 ANOVA를 쓸 때마다 p-value만 보고 결론 냈는데, 그 뒤에 이런 오류 구조가 숨어 있다는 걸 이번에 제대로 정리한 것 같습니다. 핵심만 다시 정리하면 제1종 오류(α)는 없는 효과를 있다고 하는 실수, 제2종 오류(β)는 있는 효과를 놓치는 실수입니다. 둘은 트레이드오프 관계라 동시에 줄이려면 표본 크기를 늘리는 수밖에 없습니다. 그리고 어느 오류가 더 위험한지는 항상 상황에 따라 판단해야 합니다.
'Data Analysis > Statistics' 카테고리의 다른 글
| [기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0) | 2026.02.24 |
|---|---|
| [기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까) (0) | 2026.02.20 |
| [기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준) (2) | 2026.02.19 |
| [기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0) | 2026.02.03 |
| [기초통계] t-test 검정이란? (0) | 2026.01.31 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.