머신러닝을 공부하다 보면 자연스럽게 이런 생각을 하게 됩니다. 손실함수와 경사하강법으로 모델이 학습된다는 건 알겠는데, 그래서 학습이 끝나면 정확히 무엇이 남는 걸까?
지난 글에서 모델이 어떻게 학습되는가를 다뤘습니다. 오늘은 그 학습의 결과물을 직접 해석할 수 있는 모델, 선형 회귀를 정리해보겠습니다 🙂

1. 선형 회귀의 구조

선형 회귀는 입력값(X)과 출력값(y) 사이의 관계를 직선으로 표현하는 모델입니다. 출력값이 연속적인 실수값일 때 사용합니다.
y ∈ ℝ (실수 전체 범위)
구조는 다음과 같습니다.
입력 데이터(X) → 가중합 계산 → 예측값(ŷ)
기본 수식은 다음과 같습니다.
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
w : 각 변수의 계수 (weight)
b : 절편 (bias)
y : 예측값
모델이 학습한다는 건, 데이터를 가장 잘 설명하는 w와 b의 값을 찾는 과정입니다.
1.1 단순 vs 다중: 입력 변수 수에 따른 구분
선형 회귀는 입력 변수의 수에 따라 두 가지로 나뉩니다.
① 단순 선형 회귀 (Simple Linear Regression)
입력 변수가 1개인 경우입니다.
예: 공부 시간(x) → 시험 점수(y)
y = wx + b
② 다중 선형 회귀 (Multiple Linear Regression)
입력 변수가 2개 이상인 경우입니다.
예: 평수 + 층수 + 위치(x₁, x₂, x₃) → 집값(y)
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
실무에서는 대부분 다중 선형 회귀를 사용합니다. 하나의 결과에 영향을 미치는 요인이 한 가지인 경우는 거의 없으니까요.
1.2 선형 회귀가 가진 강점과 한계
- 계수(w)를 통해 각 변수의 영향력을 직접 해석 가능
- 구조가 단순해 학습 속도가 빠름
- 선형 관계가 없는 데이터에는 적합하지 않음
실무에서 결과를 설명해야 하는 상황이라면, 복잡한 모델보다 선형 회귀가 더 강력한 선택이 되기도 합니다.
2. 계수는 무엇을 의미하는가
선형 회귀에서 계수 w는 단순한 숫자가 아닙니다. "다른 변수가 고정된 상태에서, 이 변수가 1 증가할 때 y가 얼마나 변하는가"를 나타냅니다.
예를 들어 집값 예측 모델에서 평수의 계수가 200이라면, 다른 조건이 같을 때 평수가 1 늘어날수록 집값이 200만큼 오른다고 해석할 수 있습니다.
이게 선형 회귀가 다른 복잡한 모델과 구별되는 가장 큰 특징입니다. 모델의 판단을 사람이 직접 읽을 수 있습니다.
3. 모델이 성립하기 위한 조건
선형 회귀는 강력하지만, 몇 가지 전제 조건 위에서 작동합니다. 이 조건들이 충족되지 않으면 모델의 신뢰성이 떨어집니다.
3.1 네 가지 가정과 그 의미
① 선형성
입력과 출력 사이에 선형 관계가 존재해야 합니다. 데이터를 산점도로 먼저 시각화하는 이유가 바로 이것입니다.
② 독립성
각 관측값은 서로 독립적이어야 합니다. 시계열 데이터처럼 이전 값이 다음 값에 영향을 주는 경우에는 주의가 필요합니다.
③ 등분산성
오차의 분산이 일정해야 합니다. 잔차 플롯(Residual Plot)을 통해 확인할 수 있습니다.
④ 정규성
오차가 정규분포를 따라야 합니다. Q-Q Plot으로 시각적으로 확인하는 것이 일반적입니다.
이 가정들이 현실 데이터에서 완벽히 충족되는 경우는 드뭅니다. 그래서 선형 회귀를 쓸 때는 항상 이 데이터에 선형 관계가 있는가를 먼저 확인하는 습관이 중요합니다.
4. 다중공선성: 변수들이 서로 닮아있을 때
다중 선형 회귀에서 반드시 알아야 할 개념이 있습니다. 바로 다중공선성(Multicollinearity)입니다.
4.1 다중공선성이 발생하는 구조

입력 변수들끼리 서로 높은 상관관계를 가질 때 발생합니다. 이 경우 각 변수의 계수가 불안정해지고, 해석이 어려워집니다.
예를 들어 키와 몸무게를 동시에 입력 변수로 넣으면, 두 변수가 너무 비슷한 정보를 담고 있어서 모델이 각각의 영향력을 제대로 분리하지 못합니다.
4.2 VIF: 공선성을 수치로 판단하는 방법
다중공선성이 의심될 때는 VIF(분산 팽창 지수, Variance Inflation Factor)를 확인합니다.
VIF = 1 / (1 - R²)
일반적인 판단 기준은 다음과 같습니다.
- VIF < 5 → 문제없음
- VIF 5 ~ 10 → 주의 필요
- VIF > 10 → 다중공선성 존재 → 변수 제거 또는 변환 필요
정리
선형 회귀는 가장 단순한 모델이지만 세 가지 측면에서 여전히 중요합니다.
- 계수를 통해 모델의 판단을 직접 해석할 수 있다
- 가정을 확인하는 과정에서 데이터 구조를 깊게 이해하게 된다
- 다중공선성 같은 개념은 더 복잡한 모델을 다룰 때도 그대로 적용된다
다음 글에서는 로지스틱 회귀를 다뤄보겠습니다. 이름은 회귀인데 왜 분류 문제에 쓰이는지, 그 구조적 이유를 살펴볼게요 🙂
'AI & ML > ML' 카테고리의 다른 글
| [머신러닝] 결정 트리: 모델이 스스로 질문을 만드는 방법 (0) | 2026.05.06 |
|---|---|
| [머신러닝] 로지스틱 회귀: 분류 문제를 확률로 푸는 방법 (0) | 2026.04.26 |
| [머신러닝] 지도학습(회귀모델 vs 분류모델) (3) | 2026.02.17 |
| [머신러닝] 지도학습과 비지도학습의 구조적 차이 (0) | 2026.02.17 |
| [머신러닝] 머신러닝의 시작은 문제 정의다 (0) | 2026.02.16 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.