t-test와 One-way ANOVA를 공부하면서 계속 등장하는 단어들이 있었습니다. 바로 귀무가설, 유의수준, p-value인데요.
솔직히 말하면 그동안 "p < 0.05면 유의미한 거지"라는 기계적인 판단만 해왔습니다. 정확히 왜 0.05인지, p-value가 구체적으로 무엇을 확률로 계산한 건지는 제대로 설명하지 못했어요.
이번 글에서는 t-test와 ANOVA가 공유하고 있는 가설검정의 공통 구조를 다시 짚어보겠습니다. 개념을 단단하게 다져놔야 이후 내용들이 제대로 쌓이더라고요 🙂
1. 가설검정이란 무엇인가
1.1 일상의 언어로 이해하기
가설검정은 이름 그대로 세워둔 가설이 맞는지 데이터로 확인하는 과정입니다. 그런데 통계에서 가설검정은 조금 독특한 방식으로 작동합니다. 우리는 "광고 A가 광고 B보다 효과 있다"는 걸 직접 증명하지 않습니다. 대신 "광고 A와 광고 B는 차이가 없다"는 반대 명제를 일단 사실로 가정한 뒤 그게 얼마나 말이 안 되는지를 데이터로 따집니다.
1.2 귀무가설과 대립가설
가설검정에는 항상 두 개의 가설이 등장합니다. 귀무가설(H₀, Null Hypothesis)과 대립가설(H₁, Alternative Hypothesis)입니다. 귀무가설은 "차이가 없다", "효과가 없다"는 보수적인 기본 입장입니다. 검정은 항상 이 가설이 참이라고 가정하고 시작해요. 대립가설은 우리가 실제로 확인하고 싶은 주장이고, 귀무가설이 기각될 때 채택됩니다.
예를 들어 신규 랜딩페이지 A/B 테스트를 설계한다면 이렇게 됩니다.
| 구분 | 표현 | 의미 |
| 귀무가설 H₀ | 신규 랜딩페이지와 기존 랜딩페이지의 전환율은 같다 | 차이 없음을 기본 가정 |
| 대립가설 H₁ | 신규 랜딩페이지의 전환율이 기존과 다르다 | 우리가 실제로 확인하고 싶은 것 |
여기서 중요한 포인트가 있습니다. 우리가 증명하고 싶은 건 대립가설이지만, 검정 자체는 귀무가설을 대상으로 진행됩니다. 귀무가설이 너무 말이 안 되는 상황이 만들어지면 그때 대립가설을 채택하는 간접 방식이에요. 그리고 한 가지 꼭 기억해둬야 할 것이 있습니다. "귀무가설을 기각하지 못했다"는 것은 "귀무가설이 참이다"라는 뜻이 아닙니다. "이 데이터로는 차이가 있다고 말하기 어렵다"는 뜻이에요. 증거 부족이 없다는 증명은 아닙니다.
2.유의수준(α) — '틀릴 수 있는 리스크'를 미리 정한다
2.1 유의수준의 의미
유의수준(Significance Level, α)은 귀무가설이 실제로 참인데도 불구하고 잘못 기각해버리는 실수를 허용하는 최대 확률입니다. 쉽게 말하면 없는 효과를 있다고 결론 내리는 실수를 어디까지 감수하겠느냐는 기준선이에요. α = 0.05로 설정한다는 건 이런 의미입니다. "귀무가설이 사실이어도 5% 확률 이하의 극단적인 결과가 나오면 귀무가설을 기각하겠다. 즉 100번 검정하면 5번 정도는 틀린 결론을 낼 수 있다는 리스크를 감수하겠다."
2.2 왜 하필 0.05인가
α = 0.05 (5%)라는 기준은 사실 통계학자 로널드 피셔가 1925년에 편의상 제안한 임의적인 기준입니다. 농업 실험에서 출발했고 이후 관습처럼 굳어진 거예요. 실무에서는 상황에 따라 다르게 설정합니다.
| 분야 / 상황 | 일반적인 수준 | 이유 |
| 사회과학, 마케팅 분석 | α = 0.05 | 일반적인 관습적 기준 |
| 의학 임상시험 (생사 결정) | α = 0.01 ~ 0.001 | 잘못된 결론의 대가가 너무 큼 |
| A/B 테스트 (빠른 의사결정) | α = 0.05 ~ 0.10 | 실용적 유연성 허용 |
| 물리학 (힉스 입자 발견 등) | α ≈ 0.0000003 (5σ) | 극도로 엄격한 기준 필요 |
한 가지 중요한 원칙이 있습니다. α는 반드시 검정 전에 미리 정해야 합니다. 데이터를 보고 나서 "p = 0.07이 나왔으니 α를 0.10으로 바꾸자"는 식은 결론을 조작하는 행위입니다. 뒤에서 더 이야기할 p-hacking과 같은 맥락이에요.
2.3 기각역(Critical Region)이란
유의수준 α를 정했다면 그에 따라 기각역(Critical Region)이 결정됩니다. 기각역은 검정통계량이 "여기까지 들어오면 귀무가설을 기각한다"는 구역입니다.

검정통계량(t값, F값 등)이 빨간 기각역 안에 들어오면 귀무가설을 기각합니다. 파란 비기각역에 있으면 귀무가설을 유지해요. p-value는 이 기각역과 관련이 있는데 다음 섹션에서 더 자세히 다루겠습니다.
3. p-value
3.1 p-value의 정확한 정의
p-value는 통계에서 가장 많이 쓰이면서 가장 많이 잘못 이해되는 개념이기도 합니다. 공식 정의부터 보겠습니다.
p-value = P( 현재 이상으로 극단적인 결과 | H₀가 참 )귀무가설이 참이라는 조건 하에서,
현재 데이터만큼 또는 그보다 더 극단적인 결과가 나올 확률
핵심은 귀무가설이 참이라고 가정했을 때라는 조건부 확률이라는 점입니다. 이 조건부라는 개념이 p-value 해석에서 거의 모든 오해의 원인이에요. t-test 예시로 풀어보겠습니다. A/B 테스트에서 두 그룹의 전환율을 비교했더니 p = 0.03이 나왔다고 가정해볼게요. 올바른 해석은 이렇습니다. "만약 두 그룹의 전환율이 실제로 같다면(H₀ 참), 지금처럼 크거나 더 큰 차이가 우연히 나올 확률이 3%다." 이 확률(3%)이 미리 정해둔 유의수준(5%)보다 작으므로 "차이가 없다"는 가정은 너무 말이 안 된다 → 귀무가설 기각 → 차이 있다고 결론 내립니다.
3.2 흔한 오해 4가지
실무에서 자주 마주치는 p-value 오해들을 직접 짚어보겠습니다.
오해 1 "p = 0.03은 귀무가설이 참일 확률이 3%다"
실제 p-value는 귀무가설의 참/거짓 확률이 아닙니다. 귀무가설이 참이라고 가정한 상태에서 데이터가 이렇게 나올 확률이에요. 완전히 다른 개념입니다. 귀무가설이 참일 확률을 다루려면 베이즈 통계학이 필요합니다.
오해 2 "p < 0.05면 효과가 크다 (실용적으로 의미 있다)"
실제 통계적 유의성과 실용적 유의성은 다릅니다. 샘플이 매우 크면(예: n = 100,000) 아주 미미한 차이도 p < 0.05가 쉽게 나옵니다. 전환율 차이가 0.01%인데 p = 0.001이 나올 수 있어요. 통계적으로는 유의하지만 비즈니스적으로 의미 있을까요? 효과 크기(Effect Size)를 별도로 확인해야 합니다.
오해 3 "p = 0.051이면 p = 0.049보다 훨씬 나쁜 결과다"
실제 0.05라는 경계는 임의적인 기준입니다. p = 0.049와 p = 0.051은 사실 거의 같은 결과예요. 컷오프에서 아주 미세하게 벗어났다는 이유로 전혀 다른 결론을 내리는 건 지나치게 기계적입니다. 항상 맥락과 함께 해석해야 합니다.
오해 4 "p가 낮을수록 더 강한 효과다"
실제 p-value는 효과의 크기를 나타내지 않습니다. 샘플 수가 늘어나면 같은 효과 크기라도 p값은 더 낮아집니다. p-value는 "이 데이터가 우연에 의해 나왔을 가능성"을 말할 뿐, 효과가 얼마나 큰지는 별도로 봐야 해요.
4. 가설검정의 단계
t-test든 ANOVA든 카이제곱 검정이든 모든 가설검정은 동일한 흐름을 따릅니다.

주목할 부분은 Step 2가 Step 5보다 반드시 앞에 와야 한다는 점입니다. 유의수준은 반드시 데이터를 보기 전에 정해야 합니다. 결과를 보고 유의수준을 조정하는 건 다음 섹션에서 다룰 p-hacking입니다.
5. 실무 관점의 가설검정
5.1 p-hacking — 원하는 결론이 나올 때까지 돌리기
A/B 테스트를 하면서 매일 p-value를 확인하다가 "오늘 드디어 p = 0.04가 나왔다!"며 바로 실험을 종료하는 경우가 있습니다.
이는 p-hacking입니다. 아무 효과가 없는 실험이라도 충분히 많이 충분히 오래 데이터를 모으면 우연에 의해 p < 0.05가 나올 수 있습니다. 이를 막으려면 실험 전에 샘플 크기와 종료 시점을 명확히 정해야 합니다.
p-hacking은 의도적인 경우도 있지만 의도 없이 무심코 하는 경우도 많습니다. 대표적인 패턴은 이렇습니다. 결과가 마음에 들 때까지 데이터를 계속 수집하다가 멈추거나 결과가 안 나오면 여러 지표를 돌려보며 유의한 것만 보고하거나 이상치를 제거했더니 p < 0.05가 나왔다고 보고하는 경우 등입니다.
5.2 단측 검정 vs 양측 검정
대립가설의 방향성에 따라 검정 방법이 달라집니다.
| 구분 | 대립가설 형태 | 사용 시점 |
| 양측 검정 (two-tailed) | H₁: μ₁ ≠ μ₂ (방향 무관) | 방향을 모를 때 — 기본값으로 권장 |
| 단측 검정 (one-tailed) | H₁: μ₁ > μ₂ 또는 < μ₂ | 방향이 명확히 예측될 때만 |
단측 검정은 같은 데이터에서 더 낮은 p-value가 나오기 때문에 "더 쉽게 유의미한 결과를 얻으려고" 남용되는 경우가 있습니다. 방향성이 명확한 근거가 있을 때만 단측 검정을 선택해야 합니다.
5.3 통계적 유의성 vs 실용적 유의성 — 효과 크기(Effect Size)
샘플이 매우 크면 아무리 작은 차이도 p < 0.05로 나옵니다. 반대로 효과가 있어도 샘플이 너무 작으면 p > 0.05가 나올 수 있어요. 그래서 p-value와 함께 효과 크기(Effect Size)를 함께 보는 습관이 중요합니다. t-test에서는 Cohen's d를 많이 씁니다
| Cohen's d 값 | 해석 | 실무적 의미 |
| d < 0.2 | 효과 없음 ~ 아주 작음 | p < 0.05라도 실용적 가치 낮을 수 있음 |
| d = 0.2 ~ 0.5 | 작은 효과 | 비용 대비 효과 판단 필요 |
| d = 0.5 ~ 0.8 | 중간 효과 | 의미 있는 차이 |
| d > 0.8 | 큰 효과 | 실용적으로도 명확한 차이 |
p-value만 보고 결론 내리지 말고 p-value + 효과 크기 + 신뢰구간 + 샘플 크기를 함께 확인하는 습관을 들이는 게 좋습니다.
이 네 가지를 같이 보면 결과를 훨씬 입체적으로 해석할 수 있어요.
6. 정리
t-test와 ANOVA를 배우면서 "p < 0.05니까 유의하다"는 결론을 수도 없이 내렸지만 사실 그게 정확히 무슨 의미인지는 제대로 생각해본 적이 없었습니다. 이번에 다시 정리해보니 가설검정의 본질은 귀무가설을 반증하는 간접 논리라는 것, p-value는 귀무가설이 참일 때의 조건부 확률이라는 것, 그리고 통계적 유의성과 실용적 의미는 별개라는 것이 핵심이었습니다.
다음 글에서는 가설검정에서 범할 수 있는 두 종류의 오류인 제1종 오류와 제2종 오류를 다뤄볼 건데요, 왜 α를 낮출수록 다른 리스크가 올라가는지 그 트레이드오프 관계를 정리해보겠습니다 🙂
'Data Analysis > Statistics' 카테고리의 다른 글
| [기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0) | 2026.02.24 |
|---|---|
| [기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까) (0) | 2026.02.20 |
| [기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가) (0) | 2026.02.20 |
| [기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0) | 2026.02.03 |
| [기초통계] t-test 검정이란? (0) | 2026.01.31 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.