프로젝트를 시작하게 된 배경
이번 프로젝트는 팀 프로젝트로 진행되었으며, 단순히 하나의 AI 모델을 만드는 것을 목표로 하지 않았다.
본 프로젝트의 궁극적인 목표는 다음과 같다.
데이터 분석 → DB 연동 → 웹 페이지(Streamlit Cloud) 배포까지
전체 데이터 파이프라인을 직접 설계하고 구현해보는 것
그동안 데이터 분석이나 머신러닝 모델링 자체는 여러 번 경험해왔지만, 분석 결과가 실제로 어떻게 서비스 형태로 연결되는지까지
하나의 흐름으로 만들어본 경험은 상대적으로 부족하다고 느꼈다.
그래서 이번 팀 프로젝트에서는
✔ 분석
✔ 모델링
✔ 데이터 저장
✔ 웹 서비스 시각화
모두 포함하는 엔드투엔드 프로젝트를 진행하기로 했다.
초기 아이디어 논의 과정
프로젝트 초반에는 다양한 데이터셋과 주제들이 논의되었다.
- AI Hub 한국어 대화 / 일반 상식 데이터
- 의료·헬스케어 데이터 기반 예측 문제
- 신용카드 연체 및 사기 거래 탐지 (Dacon, Kaggle)
- 병원 개·폐업 예측
- 상권 매출·폐업 데이터 기반 위험 지수 분석
- 소음 공해 데이터 분석
이러한 주제들은 모두
✔ 데이터 품질이 명확하고
✔ 예측 모델을 적용하기에 적합하다는 장점이 있었다.
하지만 팀 내부에서 계속해서 제기된 질문은 하나였다.
“이 분석 결과를 웹 페이지로 보여줬을 때,
사용자에게 어떤 가치를 줄 수 있을까?”
즉, ‘모델 성능’보다 ‘서비스로서의 활용 가능성’을 주제 선정의 핵심 기준으로 삼게 되었다.
왜 '광고/체험단 리뷰 판별' 인가?
네이버 플레이스는 영수증 인증 리뷰 제도를 통해 실제 방문자 기반의 리뷰 신뢰도를 높이고 있다.
그러나 실제 리뷰를 살펴보면, 영수증 인증이 되어 있음에도 불구하고 다음과 같은 리뷰들을 어렵지 않게 발견할 수 있다.
- 감탄사와 극찬 위주의 문장만 반복되는 리뷰
- “무조건 추천”, “인생 맛집” 등 홍보성 표현 중심의 리뷰
- 가격, 대기 시간, 서비스 등 실질적인 정보가 거의 없는 리뷰
형식적으로는 인증된 리뷰지만, 내용적으로는 정보 가치가 낮거나 홍보 목적에 가까운 리뷰가 존재한다
현재 시스템에서는
- 인증 여부
- 별점
- 최신순 / 추천순
과 같은 기준에 따라 리뷰가 노출되지만, 리뷰의 문체, 정보 밀도, 홍보성 패턴까지는 정량적으로 평가하기 어렵다.
이 프로젝트에서 다루고자 하는 정확한 문제
본 프로젝트의 핵심 목표는 다음과 같다.
네이버 플레이스 리뷰 텍스트를 분석하여
광고·체험단 성향이 강하게 나타나는 리뷰를 판별하는 AI 모델을 개발한다.
조금 더 구체적으로는,
- 광고·체험단 리뷰에는 어떤 공통적인 텍스트 패턴이 존재하는가?
- 정보 전달 목적의 리뷰와 홍보 목적의 리뷰는 어떻게 다른가?
- 모델은 “왜 이 리뷰를 광고 성향으로 판단했는지”를 설명할 수 있는가?
를 중심으로 분석을 진행한다.
프로젝트 목표 정리
이번 프로젝트는 다음 세 가지 관점에서 진행된다.
1️⃣ 데이터 분석 관점
- 네이버 플레이스 리뷰 크롤링
- 광고·체험단 리뷰의 텍스트적 특징 분석
2️⃣ 모델링 관점
- 광고·체험단 성향 판별 모델 설계
- 리뷰 단위 점수화 및 근거 문장 도출
3️⃣ 서비스 관점
- 분석 및 모델 결과를 DB에 저장
- Streamlit Cloud를 활용한 대시보드 구현
- 사용자가 직관적으로 이해할 수 있는 화면 구성
'Project' 카테고리의 다른 글
| [Team Project] 네이버 플레이스 광고/체험단 리뷰 판별 모델 개발 - EDA (2) (0) | 2026.01.19 |
|---|---|
| [Kaggle] IEEE-CIS Fraud Detection - 모델링 (3) (0) | 2026.01.13 |
| [Kaggle] IEEE-CIS Fraud Detection - EDA (2) (0) | 2026.01.08 |
| [Kaggle] IEEE-CIS Fraud Detection - 이상거래 탐지 문제 정의와 데이터 구조 (1) (0) | 2026.01.08 |
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.