반응형
[Team Project] 네이버 플레이스 광고/체험단 리뷰 판별 모델 개발 - EDA (2)
Project2026. 1. 19. 18:15[Team Project] 네이버 플레이스 광고/체험단 리뷰 판별 모델 개발 - EDA (2)

1편에서는 프로젝트를 진행한 배경과 전체 구조를 정리했다. 이번 글에서는 수집한 리뷰 데이터를 바탕으로 광고 의심 리뷰가 어떤 특징을 가지는지 확인하고, 이를 모델링에 활용할 변수로 정리한 과정을 다룬다.이번 단계의 핵심은 단순한 데이터 탐색이 아니다.네이버 플레이스 리뷰 데이터에는 광고 여부를 나타내는 정답 라벨이 존재하지 않기 때문에, 먼저 광고 리뷰를 설명할 수 있는 패턴을 확인하고 분류 기준으로 연결하는 과정이 필요했다. 1. 분석 목적1.1. EDA 목적이번 EDA의 목적은 광고 리뷰와 일반 리뷰를 구분할 수 있는 기준을 찾는 것이다.리뷰 데이터에는 광고 여부에 대한 정답 라벨이 없기 때문에 바로 모델을 적용하기보다 먼저 광고 리뷰가 어떤 형태를 가지는지 확인하는 과정이 필요했다. 구체적으로는 ..

[Kaggle] IEEE-CIS Fraud Detection - 모델링 (3)
Project2026. 1. 13. 17:00[Kaggle] IEEE-CIS Fraud Detection - 모델링 (3)

EDA(2)에서 다음과 같은 패턴을 확인습니다.✅ 결측 여부 자체가 예측 신호가 될 수 있다✅ 반복 거래(uid_cnt)와 평균 대비 금액 편차(uid_amt_z)가 사기율과 관계됨✅ 빈도 기반 인코딩이 모델 성능에 도움이 된다하지만 이 대회는 모델 구성보다 검증 전략을 잘 잡는 것이 더 중요하다는 글을 보았습니다. 그래서 랜덤 K-Fold CV만 쓰면 리더보드 점수가 흔들리거나 현실 일반화가 잘 안 되는 경우가 많다는 보고가 있다.그래서 모델링 할때는📌 시간 기반 검증📌 Adversarial Validation을 먼저 세팅하고 그 위에 Baseline 모델을 구축하는 순서로 진행하였습니다.1. 시간 기반 검증 (Time-based Validation)1.1 왜 필요한가?TransactionDT는 단..

[Team Project] 네이버 플레이스 광고/체험단 리뷰 판별 모델 개발 - 아이디어 선정 (1)
Project2026. 1. 8. 21:49[Team Project] 네이버 플레이스 광고/체험단 리뷰 판별 모델 개발 - 아이디어 선정 (1)

프로젝트를 시작하게 된 배경이번 프로젝트는 팀 프로젝트로 진행되었으며, 단순히 하나의 AI 모델을 만드는 것을 목표로 하지 않았다.본 프로젝트의 궁극적인 목표는 다음과 같다.데이터 분석 → DB 연동 → 웹 페이지(Streamlit Cloud) 배포까지전체 데이터 파이프라인을 직접 설계하고 구현해보는 것 그동안 데이터 분석이나 머신러닝 모델링 자체는 여러 번 경험해왔지만, 분석 결과가 실제로 어떻게 서비스 형태로 연결되는지까지하나의 흐름으로 만들어본 경험은 상대적으로 부족하다고 느꼈다. 그래서 이번 팀 프로젝트에서는✔ 분석✔ 모델링✔ 데이터 저장✔ 웹 서비스 시각화 모두 포함하는 엔드투엔드 프로젝트를 진행하기로 했다. 초기 아이디어 논의 과정프로젝트 초반에는 다양한 데이터셋과 주제들이 논의되었다.AI H..

[Kaggle] IEEE-CIS Fraud Detection - EDA (2)
Project2026. 1. 8. 03:03[Kaggle] IEEE-CIS Fraud Detection - EDA (2)

2일차부터는 실제로 데이터를 열어보고 확인하는 단계다. 이 글에서는 모델링에 들어가기 전에 반드시 확인해야 하는 기본 분포와 결측 구조만 다룬다.1. 데이터 확인1.1 데이터 병합데이터 전처리에 앞서 train_transaction, train_identity 데이터들을 TransactionID 컬럼을 기준으로 하나로 병합해서 처리한다.df = df_tr.merge(df_id, on='TransactionID', how='left') 1.2 데이터 타입 확인info()를 통해 전체 데이터 구조 먼저 확인한다.병합된 데이터는 총 590,540건의 거래 데이터와 434개의 컬럼으로 구성되어 있으며,컬럼 타입을 살펴보면 다음과 같은 특징을 가진다.float64 타입 컬럼: 399개int64 타입 컬럼: 4개o..

[Kaggle] IEEE-CIS Fraud Detection - 이상거래 탐지 문제 정의와 데이터 구조 (1)
Project2026. 1. 8. 00:59[Kaggle] IEEE-CIS Fraud Detection - 이상거래 탐지 문제 정의와 데이터 구조 (1)

IEEE-CIS 대회는 처음 보면 “거래 단위 이진 분류”처럼 보인다. 나도 처음엔 그랬다. 그런데 대회 서머리랑 1등 솔루션 글을 몇 개 읽다 보니, 이건 모델 고르는 문제라기보다 ‘데이터를 어떻게 바라보느냐’가 먼저 정해지는 대회라는 느낌이 확 왔다. 그래서 1일차는 모델/성능 얘기는 잠깐 내려두고, 이상거래 탐지로 어떻게 정의할지, 그리고 데이터 구조에서 무엇을 먼저 읽어야 하는지만 깔끔하게 정리해본다. (이거 안 잡고 들어가면 계속 헤매더라… ㅎ.ㅎ) 1. 문제 정의1.1 타깃 라벨(isFraud)의 한계IEEE-CIS에서 제공하는 isFraud는 해당 거래가 사기로 확인되었는지 여부를 나타내는 라벨이다.겉으로 보면 명확한 정답처럼 보이지만, 대회 서머리와 상위 솔루션에서는 이 라벨을 그대로 신뢰..

Notice
Jiro Horikoshi studying animation GIF

HELLO WORLD

안녕하세요. 데이터로 말하는 분석가 모모입니다.

데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.

#데이터분석#시각화#모델링#시스템설계
Popular
New
Recommend
반응형
image