실무에서 다양한 데이터를 다루다 보니 자연스럽게 t-test를 접하게 됐는데요.
그동안은 “이럴 때 쓰는 거구나” 정도로만 이해한 채 정확한 의미나 가정은 깊게 생각하지 않고 사용했던 것 같아요.
그러다 문득 t-test가 정확히 뭘 비교하는 건지, 언제 쓰는 게 맞는 건지 제대로 정리해보고 싶다는 생각이 들더라구요. 그래서 이번에는 기초 통계 강의들을 차근차근 정주행하면서, t-test의 개념부터 계산 과정, 해석 방법까지 제가 이해한 흐름대로 다시 정리해보았습니다.
1. t-test가 뭐길래?
1.1 t-test의 정의와 유래
첫 번째 영상에서 배운 건데요, 교과서를 보면 이렇게 나와있더라구요:
t-test란? 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 뽑은 표본의 평균값에 대한 가설검정 방법
저도 처음엔 이게 뭔 소리인가 했는데, 핵심만 간추리면 이렇습니다:
💡 t-test의 목적: 두 개의 집단이 같은지 다른지 비교하기 위해 사용한다!
예를 들어, A 대학 남학생 평균 키가 178.5cm이고 B 대학 남학생 평균 키가 179.9cm일 때, 이 1.4cm 차이가 진짜 의미 있는 차이인지 아니면 그냥 우연히 발생한 차이인지 알고 싶을 때 사용합니다.
1.2 모집단 vs 표본
| 구분 | 모집단 | 표본 |
| 설명 | 연구 대상 전체 | 모집단에서 추출한 일부 |
| 크기 | N (대문자) | n (소문자) |
| 평균 | μ (뮤) | x̄ (엑스 바) |
| 분산 | σ² | s² |
2. t-test의 기초 - 평균 차이와 표준편차 비교
2.1 결정론적 vs 통계적 의사결정
결정론적 의사결정: 단순 비교
- "178.5cm < 179.9cm 이니까 B 대학이 더 크다!" (끝)
통계적 의사결정: 확률로 판단
- "1.4cm 차이가 우연히 발생했을 확률이 얼마나 될까?"
통계는 후자의 방식이에요. 관측된 차이가 우연히 발생할 확률을 계산해서 판단합니다.
2.2 표준편차가 왜 중요한가?
제가 실습한 예제를 들어볼게요. 데이터가 {1, 2, 3, 4, 5}라고 가정하면:
- 평균 = 3
- 분산 = 2.5
계산법: [(1-3)² + (2-3)² + (3-3)² + (4-3)² + (5-3)²] / (5-1) = 10/4 = 2.5 - 표준편차 = √2.5 ≈ 1.58
이게 무슨 의미냐면, 데이터들이 평균값 3을 중심으로 평균적으로 1.58 정도씩 퍼져있다는 뜻 입니다.

그래서 t-test는 이렇게 판단해요:
✅ 평균 차이가 표준편차보다 현저히 작다 → 우연히 발생했다
✅ 평균 차이가 표준편차보다 현저히 크다 → 의미 있는 차이다
💡 핵심: t-test란 평균값 차이와 표준편차의 비율이 얼마나 큰지 작은지를 판단하는 통계적 방법
3. 정규분포와 표준화
3.1 정규분포란 무엇인가?
정규분포(Normal Distribution)는 데이터가 평균을 중심으로 좌우 대칭인 종 모양으로 퍼져 있는 분포를 말합니다.
대표적인 특징은 다음과 같아요.
- 평균(mean) = 중앙값(median) = 최빈값(mode)
- 평균을 기준으로 좌우가 대칭
- 대부분의 데이터가 평균 근처에 몰려 있음
즉, 데이터의 대부분은 평균 근처에 있고 아주 크거나 작은 값은 상대적으로 드물게 나타납니다.
t-test는 기본적으로 “표본 평균이 이 정규분포에서 얼마나 멀리 떨어져 있는가”를 판단하는 방법이라고 이해하면 됩니다.
3.2 왜 표준화가 필요한가?
문제는 정규분포가 평균과 표준편차에 따라 모양이 달라진다는 점입니다.
예를 들어,
- 시험 A: 평균 50점, 표준편차 10
- 시험 B: 평균 80점, 표준편차 5
이 두 분포를 그대로 비교하기는 어렵습니다. 그래서 사용하는 게 표준화(Standardization) 입니다. 표준화는 각 데이터를 “평균에서 표준편차 몇 배만큼 떨어져 있는가”로 바꾸는 과정입니다.
3.3 표준화(z-score)의 의미
표준화된 값은 z-score라고 부르고, 공식은 다음과 같습니다.
z=x−μσz = \frac{x - \mu}{\sigma}
- x : 관측값
- μ : 평균
- σ : 표준편차
z-score는 “이 값이 평균에서 표준편차 몇 배만큼 떨어져 있는가”를 의미합니다.
예를 들어,
- z = 0 → 평균과 동일
- z = 1 → 평균보다 표준편차 1만큼 큼
- z = -2 → 평균보다 표준편차 2만큼 작음
이렇게 변환하면 모든 정규분포를 평균 0, 표준편차 1인 표준정규분포로 통일해서 볼 수 있습니다.
3.4 정규분포표를 사용하는 이유
표준화된 z값을 이용하면 정규분포표(z-table) 를 통해 특정 구간에 속할 확률을 바로 확인할 수 있습니다. 이 과정에서 중요한 점은
확률을 직접 적분해서 구하는 것이 아니라, 이미 계산된 표를 활용한다는 점입니다. t-test 역시 이와 동일한 원리로 표본 평균이 우연히 나올 수 있는 범위인지를 확률적으로 판단합니다.
3.5 t-test와의 연결 포인트
여기까지 정리하면 정규분포와 표준화는 결국 t-test를 위한 준비 단계라고 볼 수 있습니다.
- 정규분포: 데이터가 어떤 형태로 퍼져 있는가
- 표준화: 평균 차이를 비교 가능한 기준으로 바꾸는 과정
- t-test: 그 차이가 우연인지 아닌지를 판단
그래서 t-test의 t값도 결국은 표준화된 평균 차이라고 이해하면 훨씬 직관적이었습니다.
4. 양측 검정 vs 단측 검정
4.1 가설 설정하기
귀무가설(H₀): 두 집단 평균 차이 = 0
대립가설(H₁): 두 가지 방식

4.2 양측 검정 (Two-tailed Test)
- 대립가설: 차이 ≠ 0 (크거나 작거나 둘 다 포함)
- 유의수준 배분: α = 0.05를 양쪽에 2.5%씩 배분
- 사용 시기: 특정 방향을 모르거나 관심 없을 때
예: A 대학과 B 대학 남학생 키가 다른지만 알고 싶을 때
4.3 단측 검정 (One-tailed Test)
- 대립가설: 차이 > 0 또는 차이 < 0 (한쪽만)
- 유의수준 배분: α = 0.05 전부를 한쪽에 배분
- 사용 시기: 특정 방향에만 관심 있을 때
예: A 대학이 B 대학보다 키가 크다는 걸 증명하고 싶을 때
💡 핵심: 양측 검정과 단측 검정의 차이는 대립가설의 차이예요. 양측은 α를 양쪽에 나누고, 단측은 한쪽으로 몰아서 봅니다!
5. t-test 실습
t = (x̄₁ - x̄₂) / (s_p × √(1/n₁ + 1/n₂))
- x̄₁, x̄₂ = 두 집단의 평균
- s_p = 통합 표준편차
- n₁, n₂ = 각 집단의 표본 크기
5.2 실습 예제 - 두 대학 키 비교
데이터:
- L 대학 평균 키: 170.85 cm
- B 대학 평균 키: 172.25 cm
- 평균 차이: 1.4 cm
- 각 표본 크기: n = 100명
- 통합 표준편차: s_p = 7.05 cm
Step 1: t 값 계산
t = 1.4 / (7.05/√100)
t = 1.4 / 0.705
t ≈ 1.996
Step 2: 자유도(df) 계산
df = n₁ + n₂ - 2 = 100 + 100 - 2 = 198
(간단히 df ≈ 100으로 사용)

Step 3: 임계값과 비교
t-분포표에서 찾아보니:
- 유의수준 α = 0.05, 양측 검정
- df = 100일 때 임계값 = 1.984
Step 4: 결과 해석
계산된 t 값 (1.996) > 임계값 (1.984) ✅ → 귀무가설 기각! → p < 0.05
결론: 두 대학 남학생의 키는 통계적으로 유의하게 다릅니다! 🎉
처음엔 1.4cm 차이가 별로 안 커 보였는데, 통계적으로는 의미 있는 차이였던 거죠!
6. t-test의 종류 정리
마지막 영상에서 t-test의 여러 종류를 배웠는데, 정리하면 이렇습니다:

6.1 독립표본 t-검정 (Independent Samples t-test)
- 사용 시기: 서로 다른 두 집단 비교
- 예시: A 대학 vs B 대학 남학생 키
- 특징: 두 집단이 독립적 (서로 영향 없음)
6.2 대응표본 t-검정 (Paired Samples t-test)
- 사용 시기: 같은 집단의 전후 비교
- 예시: 다이어트 프로그램 전후 체중 변화
- 특징: 같은 대상을 반복 측정
6.3 일표본 t-검정 (One Sample t-test)
- 사용 시기: 표본 평균과 특정 값 비교
- 예시: 우리 학교 평균 성적이 전국 평균 80점과 다른지
- 특징: 기준값이 정해져 있을 때
'Data Analysis > Statistics' 카테고리의 다른 글
| [기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0) | 2026.02.24 |
|---|---|
| [기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까) (0) | 2026.02.20 |
| [기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가) (0) | 2026.02.20 |
| [기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준) (2) | 2026.02.19 |
| [기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0) | 2026.02.03 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.