머신러닝을 여러 번 다뤄보면 자연스럽게 느끼는 게 하나 있습니다. 모델은 계속 바꿀 수 있지만 문제 정의는 한 번 잘못 잡으면 끝까지 영향을 준다는 점입니다 🙂 알고리즘을 바꾸는 것보다, 하이퍼파라미터를 조정하는 것보다 처음에 무엇을 해결하려는지를 정확히 정리하는 일이 훨씬 중요합니다.
오늘은 머신러닝의 기술적인 내용보다 데이터 분석가의 관점에서 그 출발점이 되는 문제 정의에 대해 정리해보겠습니다.
1. 머신러닝의 개념
머신러닝(Machine Learning)은 명시적으로 규칙을 코딩하지 않아도 데이터로부터 패턴을 학습해 예측이나 판단을 수행하는 방법입니다. 전통적인 프로그래밍은 다음과 같은 구조입니다.
규칙 + 데이터 → 결과
반면 머신러닝은 다음과 같이 작동합니다.
데이터 + 정답(라벨) → 규칙(모델 생성)
새로운 데이터 + 학습된 모델 → 예측 결과
즉, 사람이 직접 규칙을 만드는 것이 아니라 데이터를 통해 규칙을 학습하는 방식입니다.
머신러닝은 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 구분됩니다.
1.1 지도학습 (Supervised Learning)
- 정답(라벨)이 있는 데이터를 학습합니다.
- 입력과 출력이 명확하게 정의되어 있습니다.
- 예측과 분류 문제가 여기에 해당합니다.
예:
스팸 메일 여부 예측, 가격 예측, 감정 분석 등
1.2 비지도학습 (Unsupervised Learning)
- 정답(라벨)이 없는 데이터를 학습합니다.
- 데이터 내부의 구조나 패턴을 찾습니다.
- 군집화와 이상 탐지가 대표적입니다.
예:
사용자 그룹 세분화, 이상 패턴 탐지 등
이 구분은 단순한 이론적 분류가 아니라 문제 정의 단계에서 중요한 판단 기준이 됩니다. 라벨이 존재하는지 여부에 따라 모델 선택과 평가 방식이 완전히 달라지기 때문입니다.

2. 머신러닝의 적용 목적
머신러닝은 크게 세 가지 유형으로 구분할 수 있습니다.
▪ 예측 (Prediction)
과거 데이터를 기반으로 미래 값을 추정하는 문제입니다.
예: 수요 예측, 매출 예측, 가격 변동 예측
▪ 분류 (Classification)
데이터를 특정 범주로 구분하는 문제입니다.
예: 스팸 필터링, 이미지 객체 인식, 감정 분류
▪ 탐지 및 군집 (Detection / Clustering)
라벨 없이 패턴을 찾거나 이상치를 탐지하는 문제입니다.
예: 이상 거래 탐지, 사용자 세그먼트 분석
문제 유형이 달라지면 전처리 방식, 모델 선택, 평가 지표까지 모두 달라집니다. 따라서 머신러닝은
“어떤 모델을 쓸까”가 아니라 “이 문제는 어떤 구조인가”를 정의하는 단계에서 시작됩니다.
3. 문제 정의가 성능을 좌우하는 이유
같은 데이터라도 문제 정의가 달라지면 모델의 방향은 완전히 달라집니다.
예를 들어 판매 데이터가 있을 때,
- 단순 추세 분석인지
- 미래 예측인지
- 이상 패턴 탐지인지
목적이 달라지면 Feature 설계도 달라지고 평가 방식도 달라집니다. 특히 라벨 정의는 핵심입니다. 라벨 기준이 불명확하면 모델은 표면적인 패턴만 학습합니다. 모델 성능이 기대만큼 나오지 않을 때, 알고리즘을 바꾸기 전에 문제 정의와 라벨 기준을 다시 점검하는 것이 더 효과적인 경우가 많습니다.
4. KPI 기반의 문제 구조화
문제 정의는 반드시 평가 지표(KPI)와 함께 설계되어야 합니다. 대표적인 분류 지표는 다음과 같습니다.
- Accuracy : 전체 예측 중 정답 비율
- Precision : 양성으로 예측한 것 중 실제 양성 비율
- Recall : 실제 양성 중 모델이 맞춘 비율
- F1 Score : Precision과 Recall의 균형 지표
Accuracy는 직관적이지만 클래스 불균형이 있는 경우 왜곡될 수 있습니다. 예를 들어 이상 데이터가 1%인 상황에서는 모든 데이터를 정상으로 예측해도 Accuracy는 99%입니다. 그러나 이 모델은 탐지 기능을 수행하지 못합니다. 따라서 KPI는 결과 해석 단계가 아니라 문제 정의 단계에서 함께 결정되어야 합니다.
5. 모델 선택 이전의 판단 요소
문제가 정의되었다면 다음을 함께 고려해야 합니다.
- 데이터의 양과 품질
- 데이터 구조 (정형, 텍스트, 시계열 등)
- 운영 환경 (실시간 vs 배치)
- 해석 가능성 요구 수준
실무에서는 가장 복잡한 모델이 아니라 문제와 환경에 적합한 모델이 선택됩니다. 성능 차이가 크지 않다면 안정성과 해석 가능성이 더 중요한 기준이 될 수 있습니다.
6. 머신러닝 프로젝트의 기본 구조
머신러닝은 일반적으로 다음과 같은 흐름으로 진행됩니다.
- 문제 정의
- 데이터 수집 및 정제
- 라벨 정의
- Feature 설계
- 모델 학습
- 평가 및 검증
- 배포 및 모니터링
이 중 가장 앞단에 위치한 문제 정의가 이후 모든 단계를 결정합니다.
'AI & ML > ML' 카테고리의 다른 글
| [머신러닝] 결정 트리: 모델이 스스로 질문을 만드는 방법 (0) | 2026.05.06 |
|---|---|
| [머신러닝] 로지스틱 회귀: 분류 문제를 확률로 푸는 방법 (0) | 2026.04.26 |
| [머신러닝] 선형 회귀: 가장 단순한 모델의 작동 원리 (0) | 2026.04.26 |
| [머신러닝] 지도학습(회귀모델 vs 분류모델) (3) | 2026.02.17 |
| [머신러닝] 지도학습과 비지도학습의 구조적 차이 (0) | 2026.02.17 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.