[기초통계] t-test 검정이란?

[기초통계] t-test 검정이란?Data Analysis/Statistics2026. 1. 31. 04:47@모모띠

Table of Contents

실무에서 다양한 데이터를 다루다 보니 자연스럽게 t-test를 접하게 됐는데요.
그동안은 “이럴 때 쓰는 거구나” 정도로만 이해한 채 정확한 의미나 가정은 깊게 생각하지 않고 사용했던 것 같아요.
그러다 문득 t-test가 정확히 뭘 비교하는 건지, 언제 쓰는 게 맞는 건지 제대로 정리해보고 싶다는 생각이 들더라구요. 그래서 이번에는 기초 통계 강의들을 차근차근 정주행하면서, t-test의 개념부터 계산 과정, 해석 방법까지 제가 이해한 흐름대로 다시 정리해보았습니다.

1. t-test가 뭐길래?

1.1 t-test의 정의와 유래

첫 번째 영상에서 배운 건데요, 교과서를 보면 이렇게 나와있더라구요:

t-test란? 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 뽑은 표본의 평균값에 대한 가설검정 방법

저도 처음엔 이게 뭔 소리인가 했는데, 핵심만 간추리면 이렇습니다:

💡 t-test의 목적: 두 개의 집단이 같은지 다른지 비교하기 위해 사용한다!

예를 들어, A 대학 남학생 평균 키가 178.5cm이고 B 대학 남학생 평균 키가 179.9cm일 때, 이 1.4cm 차이가 진짜 의미 있는 차이인지 아니면 그냥 우연히 발생한 차이인지 알고 싶을 때 사용합니다.

1.2 모집단 vs 표본

구분	모집단	표본
설명	연구 대상 전체	모집단에서 추출한 일부
크기	N (대문자)	n (소문자)
평균	μ (뮤)	x̄ (엑스 바)
분산	σ²	s²

2. t-test의 기초 - 평균 차이와 표준편차 비교

2.1 결정론적 vs 통계적 의사결정

결정론적 의사결정: 단순 비교

"178.5cm < 179.9cm 이니까 B 대학이 더 크다!" (끝)

통계적 의사결정: 확률로 판단

"1.4cm 차이가 우연히 발생했을 확률이 얼마나 될까?"

통계는 후자의 방식이에요. 관측된 차이가 우연히 발생할 확률을 계산해서 판단합니다.

2.2 표준편차가 왜 중요한가?

제가 실습한 예제를 들어볼게요. 데이터가 {1, 2, 3, 4, 5}라고 가정하면:

평균 = 3
분산 = 2.5
계산법: [(1-3)² + (2-3)² + (3-3)² + (4-3)² + (5-3)²] / (5-1) = 10/4 = 2.5
표준편차 = √2.5 ≈ 1.58

이게 무슨 의미냐면, 데이터들이 평균값 3을 중심으로 평균적으로 1.58 정도씩 퍼져있다는 뜻 입니다.

그래서 t-test는 이렇게 판단해요:

✅ 평균 차이가 표준편차보다 현저히 작다 → 우연히 발생했다
✅ 평균 차이가 표준편차보다 현저히 크다 → 의미 있는 차이다

💡 핵심: t-test란 평균값 차이와 표준편차의 비율이 얼마나 큰지 작은지를 판단하는 통계적 방법

3. 정규분포와 표준화

3.1 정규분포란 무엇인가?

정규분포(Normal Distribution)는 데이터가 평균을 중심으로 좌우 대칭인 종 모양으로 퍼져 있는 분포를 말합니다.

대표적인 특징은 다음과 같아요.

평균(mean) = 중앙값(median) = 최빈값(mode)
평균을 기준으로 좌우가 대칭
대부분의 데이터가 평균 근처에 몰려 있음

즉, 데이터의 대부분은 평균 근처에 있고 아주 크거나 작은 값은 상대적으로 드물게 나타납니다.

t-test는 기본적으로 “표본 평균이 이 정규분포에서 얼마나 멀리 떨어져 있는가”를 판단하는 방법이라고 이해하면 됩니다.

3.2 왜 표준화가 필요한가?

문제는 정규분포가 평균과 표준편차에 따라 모양이 달라진다는 점입니다.

예를 들어,

시험 A: 평균 50점, 표준편차 10
시험 B: 평균 80점, 표준편차 5

이 두 분포를 그대로 비교하기는 어렵습니다. 그래서 사용하는 게 표준화(Standardization) 입니다. 표준화는 각 데이터를 “평균에서 표준편차 몇 배만큼 떨어져 있는가”로 바꾸는 과정입니다.

3.3 표준화(z-score)의 의미

표준화된 값은 z-score라고 부르고, 공식은 다음과 같습니다.

z=x−μσz = \frac{x - \mu}{\sigma}

x : 관측값
μ : 평균
σ : 표준편차

z-score는 “이 값이 평균에서 표준편차 몇 배만큼 떨어져 있는가”를 의미합니다.

예를 들어,

z = 0 → 평균과 동일
z = 1 → 평균보다 표준편차 1만큼 큼
z = -2 → 평균보다 표준편차 2만큼 작음

이렇게 변환하면 모든 정규분포를 평균 0, 표준편차 1인 표준정규분포로 통일해서 볼 수 있습니다.

3.4 정규분포표를 사용하는 이유

표준화된 z값을 이용하면 정규분포표(z-table) 를 통해 특정 구간에 속할 확률을 바로 확인할 수 있습니다. 이 과정에서 중요한 점은
확률을 직접 적분해서 구하는 것이 아니라, 이미 계산된 표를 활용한다는 점입니다. t-test 역시 이와 동일한 원리로 표본 평균이 우연히 나올 수 있는 범위인지를 확률적으로 판단합니다.

3.5 t-test와의 연결 포인트

여기까지 정리하면 정규분포와 표준화는 결국 t-test를 위한 준비 단계라고 볼 수 있습니다.

정규분포: 데이터가 어떤 형태로 퍼져 있는가
표준화: 평균 차이를 비교 가능한 기준으로 바꾸는 과정
t-test: 그 차이가 우연인지 아닌지를 판단

그래서 t-test의 t값도 결국은 표준화된 평균 차이라고 이해하면 훨씬 직관적이었습니다.

4. 양측 검정 vs 단측 검정

4.1 가설 설정하기

귀무가설(H₀): 두 집단 평균 차이 = 0
대립가설(H₁): 두 가지 방식

4.2 양측 검정 (Two-tailed Test)

대립가설: 차이 ≠ 0 (크거나 작거나 둘 다 포함)
유의수준 배분: α = 0.05를 양쪽에 2.5%씩 배분
사용 시기: 특정 방향을 모르거나 관심 없을 때

예: A 대학과 B 대학 남학생 키가 다른지만 알고 싶을 때

4.3 단측 검정 (One-tailed Test)

대립가설: 차이 > 0 또는 차이 < 0 (한쪽만)
유의수준 배분: α = 0.05 전부를 한쪽에 배분
사용 시기: 특정 방향에만 관심 있을 때

예: A 대학이 B 대학보다 키가 크다는 걸 증명하고 싶을 때

💡 핵심: 양측 검정과 단측 검정의 차이는 대립가설의 차이예요. 양측은 α를 양쪽에 나누고, 단측은 한쪽으로 몰아서 봅니다!

5. t-test 실습

t = (x̄₁ - x̄₂) / (s_p × √(1/n₁ + 1/n₂))

x̄₁, x̄₂ = 두 집단의 평균
s_p = 통합 표준편차
n₁, n₂ = 각 집단의 표본 크기

5.2 실습 예제 - 두 대학 키 비교

데이터:

L 대학 평균 키: 170.85 cm
B 대학 평균 키: 172.25 cm
평균 차이: 1.4 cm
각 표본 크기: n = 100명
통합 표준편차: s_p = 7.05 cm

Step 1: t 값 계산

t = 1.4 / (7.05/√100)

t = 1.4 / 0.705

t ≈ 1.996

Step 2: 자유도(df) 계산

df = n₁ + n₂ - 2 = 100 + 100 - 2 = 198

(간단히 df ≈ 100으로 사용)

Step 3: 임계값과 비교

t-분포표에서 찾아보니:

유의수준 α = 0.05, 양측 검정
df = 100일 때 임계값 = 1.984

Step 4: 결과 해석

계산된 t 값 (1.996) > 임계값 (1.984) ✅ → 귀무가설 기각! → p < 0.05

결론: 두 대학 남학생의 키는 통계적으로 유의하게 다릅니다! 🎉

처음엔 1.4cm 차이가 별로 안 커 보였는데, 통계적으로는 의미 있는 차이였던 거죠!

6. t-test의 종류 정리

마지막 영상에서 t-test의 여러 종류를 배웠는데, 정리하면 이렇습니다:

6.1 독립표본 t-검정 (Independent Samples t-test)

사용 시기: 서로 다른 두 집단 비교
예시: A 대학 vs B 대학 남학생 키
특징: 두 집단이 독립적 (서로 영향 없음)

6.2 대응표본 t-검정 (Paired Samples t-test)

사용 시기: 같은 집단의 전후 비교
예시: 다이어트 프로그램 전후 체중 변화
특징: 같은 대상을 반복 측정

6.3 일표본 t-검정 (One Sample t-test)

사용 시기: 표본 평균과 특정 값 비교
예시: 우리 학교 평균 성적이 전국 평균 80점과 다른지
특징: 기준값이 정해져 있을 때

'Data Analysis > Statistics' 카테고리의 다른 글

[기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다) (0)	2026.02.24
[기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까) (0)	2026.02.20
[기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가) (0)	2026.02.20
[기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준) (2)	2026.02.19
[기초통계] 일원배치 분산분석(One-way-ANOVA)이란? (0)	2026.02.03

@모모띠 :: Data Lab :: Journey From Data to Insight

Notice

HELLO WORLD

안녕하세요. 데이터로 말하는 분석가 모모입니다.

데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.

#데이터분석#시각화#모델링#시스템설계

Popular

New

Recommend

1. t-test가 뭐길래?

1.1 t-test의 정의와 유래

1.2 모집단 vs 표본

2. t-test의 기초 - 평균 차이와 표준편차 비교

2.1 결정론적 vs 통계적 의사결정

2.2 표준편차가 왜 중요한가?

3. 정규분포와 표준화

3.1 정규분포란 무엇인가?

3.2 왜 표준화가 필요한가?

3.3 표준화(z-score)의 의미

3.4 정규분포표를 사용하는 이유

3.5 t-test와의 연결 포인트

4. 양측 검정 vs 단측 검정

4.1 가설 설정하기

4.2 양측 검정 (Two-tailed Test)

4.3 단측 검정 (One-tailed Test)

5. t-test 실습

5.2 실습 예제 - 두 대학 키 비교

6. t-test의 종류 정리

6.1 독립표본 t-검정 (Independent Samples t-test)

6.2 대응표본 t-검정 (Paired Samples t-test)

6.3 일표본 t-검정 (One Sample t-test)

'Data Analysis > Statistics' 카테고리의 다른 글

안녕하세요. 데이터로 말하는 분석가 모모입니다.

티스토리툴바