반응형
[기초통계] 신뢰구간(Confidence Interval) — "95% 확신한다"는 게 정확히 무슨 뜻일까
Data Analysis/Statistics2026. 3. 7. 20:37[기초통계] 신뢰구간(Confidence Interval) — "95% 확신한다"는 게 정확히 무슨 뜻일까

지금까지 가설검정 공부하면서 항상 p-value와 유의수준을 중심으로 결론을 냈다. "p 95% 신뢰구간: [0.12, 0.28] 이게 무슨 뜻인지 직관적으로는 알 것 같지만 막상 정확히 설명하려고 하면 헷갈린다. 이번 글에서 신뢰구간의 정확한 의미와 계산 방법 등에 대해 정리해보겠습니다! 1. 점추정 vs 구간추정모집단의 평균을 추정하는 방법은 두 가지다. 점추정(Point Estimation)은 단 하나의 숫자로 모수를 추정하는 방법이다. 표본 평균을 그대로 모집단 평균의 추정치로 사용하는 것이 대표적인 예다. 직관적이고 간단하지만 불확실성에 대한 정보가 전혀 없다. "평균이 165cm다"라는 말은 얼마나 믿을 수 있는지 알 수 없다. 구간추정(Interval Estimation)은 추정치의 범..

[기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다)
Data Analysis/Statistics2026. 2. 24. 19:38[기초통계] p-value의 의미와 오해 ("p < 0.05"가 전부가 아니다)

검정 결과를 보고하면 가장 먼저 확인하는 수치가 있다. 바로 p-value다. "p 1. p-value의 정확한 정의p-value는 다음과 같이 정의된다."귀무가설(H₀)이 참이라는 가정 하에, 현재 관찰된 결과 혹은 그보다 더 극단적인 결과가 우연히 발생할 확률"p-value = P(관찰된 결과 이상으로 극단적인 데이터 | H₀이 참)예를 들어 p-value = 0.03이라는 결과가 나왔다면 이것은 "귀무가설이 사실이라면 이런 데이터가 우연히 나올 확률이 3%에 불과하다"는 뜻이다. 이 확률이 충분히 낮다고 판단되면 (보통 α = 0.05 이하) 귀무가설을 기각하고 "통계적으로 유의하다"고 결론 내린다.핵심은 이 정의에서 "H₀이 참이라는 가정 하에"라는 조건이 항상 붙는다는 점이다. 이 조건을 빠..

[기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까)
Data Analysis/Statistics2026. 2. 20. 19:44[기초통계] 검정력(Statistical Power) (표본은 몇 명이나 필요할까)

이전 글에서 검정력(Power)을 1−β로 간단히 소개했는데 오늘은 그 개념을 실무 질문과 연결해 깊이 파고든다. A/B 테스트를 설계할 때 가장 먼저 받는 질문이 있다. "이 테스트, 몇 명한테 돌려야 해요?" 이 질문에 제대로 답하려면 검정력 분석(Power Analysis)을 알아야 한다. 1. 검정력(Power), 다시 짚고 가기검정력은 "실제로 효과가 있을 때, 그것을 올바르게 감지할 확률"이다. 수식으로는 Power = 1 − β이며, β는 제2종 오류(False Negative)다.예를 들어 검정력이 0.80이라면, 진짜 효과가 존재하는 상황에서 실험을 반복할 때 80%의 경우에는 효과를 감지하고 20%의 경우에는 감지하지 못한다는 뜻이다. 2. 검정력을 결정하는 4가지 변수검정력 분석에는 ..

[기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가)
Data Analysis/Statistics2026. 2. 20. 18:35[기초통계] 제1종 오류 vs 제2종 오류 (어떤 실수가 더 위험한가)

지난 글에서 유의수준(α)을 다루면서 이런 말을 했습니다. "α를 낮출수록 다른 리스크가 올라간다." 이번엔 그 얘기를 제대로 해보려 합니다. 가설검정은 완벽하지 않습니다. 아무리 꼼꼼하게 설계해도 항상 두 종류의 실수를 범할 가능성이 있어요. 하나는 없는 효과를 있다고 결론 내리는 실수, 다른 하나는 있는 효과를 놓치는 실수입니다. 이 둘이 바로 제1종 오류와 제2종 오류입니다.그리고 이 두 오류는 동시에 줄이는 게 불가능합니다. 하나를 줄이면 반드시 다른 하나가 올라갑니다. 이 트레이드오프를 이해하는 게 이번 글의 핵심입니다. 1. 두 오류의 정의제1종 오류(Type I Error)는 귀무가설이 실제로 참인데 잘못 기각하는 실수입니다. "없는 효과를 있다고 결론 낸다"고 이해하면 됩니다. 이 오류를 ..

[기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준)
Data Analysis/Statistics2026. 2. 19. 20:38[기초통계] 가설검정의 구조 (귀무가설, p-value, 유의수준)

t-test와 One-way ANOVA를 공부하면서 계속 등장하는 단어들이 있었습니다. 바로 귀무가설, 유의수준, p-value인데요.솔직히 말하면 그동안 "p 이번 글에서는 t-test와 ANOVA가 공유하고 있는 가설검정의 공통 구조를 다시 짚어보겠습니다. 개념을 단단하게 다져놔야 이후 내용들이 제대로 쌓이더라고요 🙂 1. 가설검정이란 무엇인가1.1 일상의 언어로 이해하기가설검정은 이름 그대로 세워둔 가설이 맞는지 데이터로 확인하는 과정입니다. 그런데 통계에서 가설검정은 조금 독특한 방식으로 작동합니다. 우리는 "광고 A가 광고 B보다 효과 있다"는 걸 직접 증명하지 않습니다. 대신 "광고 A와 광고 B는 차이가 없다"는 반대 명제를 일단 사실로 가정한 뒤 그게 얼마나 말이 안 되는지를 데이터로 따..

[기초통계] 일원배치 분산분석(One-way-ANOVA)이란?
Data Analysis/Statistics2026. 2. 3. 02:43[기초통계] 일원배치 분산분석(One-way-ANOVA)이란?

안녕하세요. 데이터 분석 업무를 하면서 t-test는 자주 사용했는데, 3개 이상 그룹 비교가 필요한 프로젝트를 맡게 되면서 ANOVA를 제대로 공부할 필요성을 느꼈습니다. 실무에서 "그냥 t-test 여러 번 돌리면 되는 거 아니에요?"라는 질문을 몇 번 받았는데 이번 기회에 왜 ANOVA를 써야 하는지 그리고 실무에서 놓치기 쉬운 부분들을 정리해보았습니다. 1. 다중 비교 문제 - 왜 t-test를 반복하면 안 되는가1.1 실무에서 흔한 상황실무에서 흔한 상황을 예로 들어보겠습니다. 마케팅 팀에서 4가지 광고 채널(검색광고, SNS광고, 디스플레이광고, 이메일)의 전환율을 비교하고 싶다고 합니다.검색 vs SNS : t-test (유의수준 α = 0.05)검색 vs 디스플레이 : t-tes..

Notice
Jiro Horikoshi studying animation GIF

HELLO WORLD

안녕하세요. 데이터로 말하는 분석가 모모입니다.

데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.

#데이터분석#시각화#모델링#시스템설계
Popular
New
Recommend
반응형
image