[머신러닝] 선형 회귀: 가장 단순한 모델의 작동 원리

[머신러닝] 선형 회귀: 가장 단순한 모델의 작동 원리AI & ML/ML2026. 4. 26. 17:28@모모띠

Table of Contents

머신러닝을 공부하다 보면 자연스럽게 이런 생각을 하게 됩니다. 손실함수와 경사하강법으로 모델이 학습된다는 건 알겠는데, 그래서 학습이 끝나면 정확히 무엇이 남는 걸까?

지난 글에서 모델이 어떻게 학습되는가를 다뤘습니다. 오늘은 그 학습의 결과물을 직접 해석할 수 있는 모델, 선형 회귀를 정리해보겠습니다 🙂

1. 선형 회귀의 구조

선형 회귀는 입력값(X)과 출력값(y) 사이의 관계를 직선으로 표현하는 모델입니다. 출력값이 연속적인 실수값일 때 사용합니다.

y ∈ ℝ (실수 전체 범위)

구조는 다음과 같습니다.
입력 데이터(X) → 가중합 계산 → 예측값(ŷ)

기본 수식은 다음과 같습니다.
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

w : 각 변수의 계수 (weight)
b : 절편 (bias)
y : 예측값

모델이 학습한다는 건, 데이터를 가장 잘 설명하는 w와 b의 값을 찾는 과정입니다.

1.1 단순 vs 다중: 입력 변수 수에 따른 구분

선형 회귀는 입력 변수의 수에 따라 두 가지로 나뉩니다.

① 단순 선형 회귀 (Simple Linear Regression)
입력 변수가 1개인 경우입니다.
예: 공부 시간(x) → 시험 점수(y)

y = wx + b

② 다중 선형 회귀 (Multiple Linear Regression)
입력 변수가 2개 이상인 경우입니다.
예: 평수 + 층수 + 위치(x₁, x₂, x₃) → 집값(y)

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

실무에서는 대부분 다중 선형 회귀를 사용합니다. 하나의 결과에 영향을 미치는 요인이 한 가지인 경우는 거의 없으니까요.

1.2 선형 회귀가 가진 강점과 한계

계수(w)를 통해 각 변수의 영향력을 직접 해석 가능
구조가 단순해 학습 속도가 빠름
선형 관계가 없는 데이터에는 적합하지 않음

실무에서 결과를 설명해야 하는 상황이라면, 복잡한 모델보다 선형 회귀가 더 강력한 선택이 되기도 합니다.

2. 계수는 무엇을 의미하는가

선형 회귀에서 계수 w는 단순한 숫자가 아닙니다. "다른 변수가 고정된 상태에서, 이 변수가 1 증가할 때 y가 얼마나 변하는가"를 나타냅니다.

예를 들어 집값 예측 모델에서 평수의 계수가 200이라면, 다른 조건이 같을 때 평수가 1 늘어날수록 집값이 200만큼 오른다고 해석할 수 있습니다.

이게 선형 회귀가 다른 복잡한 모델과 구별되는 가장 큰 특징입니다. 모델의 판단을 사람이 직접 읽을 수 있습니다.

3. 모델이 성립하기 위한 조건

선형 회귀는 강력하지만, 몇 가지 전제 조건 위에서 작동합니다. 이 조건들이 충족되지 않으면 모델의 신뢰성이 떨어집니다.

3.1 네 가지 가정과 그 의미

① 선형성
입력과 출력 사이에 선형 관계가 존재해야 합니다. 데이터를 산점도로 먼저 시각화하는 이유가 바로 이것입니다.

② 독립성
각 관측값은 서로 독립적이어야 합니다. 시계열 데이터처럼 이전 값이 다음 값에 영향을 주는 경우에는 주의가 필요합니다.

③ 등분산성
오차의 분산이 일정해야 합니다. 잔차 플롯(Residual Plot)을 통해 확인할 수 있습니다.

④ 정규성
오차가 정규분포를 따라야 합니다. Q-Q Plot으로 시각적으로 확인하는 것이 일반적입니다.

이 가정들이 현실 데이터에서 완벽히 충족되는 경우는 드뭅니다. 그래서 선형 회귀를 쓸 때는 항상 이 데이터에 선형 관계가 있는가를 먼저 확인하는 습관이 중요합니다.

4. 다중공선성: 변수들이 서로 닮아있을 때

다중 선형 회귀에서 반드시 알아야 할 개념이 있습니다. 바로 다중공선성(Multicollinearity)입니다.

4.1 다중공선성이 발생하는 구조

입력 변수들끼리 서로 높은 상관관계를 가질 때 발생합니다. 이 경우 각 변수의 계수가 불안정해지고, 해석이 어려워집니다.

예를 들어 키와 몸무게를 동시에 입력 변수로 넣으면, 두 변수가 너무 비슷한 정보를 담고 있어서 모델이 각각의 영향력을 제대로 분리하지 못합니다.

4.2 VIF: 공선성을 수치로 판단하는 방법

다중공선성이 의심될 때는 VIF(분산 팽창 지수, Variance Inflation Factor)를 확인합니다.

VIF = 1 / (1 - R²)

일반적인 판단 기준은 다음과 같습니다.

VIF < 5 → 문제없음
VIF 5 ~ 10 → 주의 필요
VIF > 10 → 다중공선성 존재 → 변수 제거 또는 변환 필요

정리

선형 회귀는 가장 단순한 모델이지만 세 가지 측면에서 여전히 중요합니다.

계수를 통해 모델의 판단을 직접 해석할 수 있다
가정을 확인하는 과정에서 데이터 구조를 깊게 이해하게 된다
다중공선성 같은 개념은 더 복잡한 모델을 다룰 때도 그대로 적용된다

다음 글에서는 로지스틱 회귀를 다뤄보겠습니다. 이름은 회귀인데 왜 분류 문제에 쓰이는지, 그 구조적 이유를 살펴볼게요 🙂

'AI & ML > ML' 카테고리의 다른 글

[머신러닝] 결정 트리: 모델이 스스로 질문을 만드는 방법 (0)	2026.05.06
[머신러닝] 로지스틱 회귀: 분류 문제를 확률로 푸는 방법 (0)	2026.04.26
[머신러닝] 지도학습(회귀모델 vs 분류모델) (3)	2026.02.17
[머신러닝] 지도학습과 비지도학습의 구조적 차이 (0)	2026.02.17
[머신러닝] 머신러닝의 시작은 문제 정의다 (0)	2026.02.16

@모모띠 :: Data Lab :: Journey From Data to Insight

Notice

HELLO WORLD

안녕하세요. 데이터로 말하는 분석가 모모입니다.

데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.

#데이터분석#시각화#모델링#시스템설계

Popular

New

Recommend

'AI & ML > ML' 카테고리의 다른 글

안녕하세요. 데이터로 말하는 분석가 모모입니다.

티스토리툴바