[데이터 전처리] 그룹화Data Analysis/EDA2023. 5. 2. 17:16
Table of Contents
반응형
1. 그룹화
import pandas as pd
df1 = pd.DataFrame({'ID':[1,2,3,4,5], '가입일':['2021-01-02','2021-01-04','2021-01-10','2021-02-10','2021-02-24'],'성별':[
'F','M','F','M','M']})
df2 = pd.DataFrame({'구매순서':[1,2,3,4,5],'ID':[1,1,2,4,1],'구매월':[1,1,2,2,3],'금액':[1000,1500,2000,3000,4000]})
df1은 회원의 정보를 저장한 데이터프레임
df2는 각 회원의 구매 내역을 저장한 데이터프레임
두 가지 데이터프레임의 데이터를 이용하여 각 회원의 누적금액을 회원ID별로 구해보겠습니다.
groupby() 함수는 데이터를 그룹별로 나누어 독립된 그룹에 대하여 별도로 데이터를 처리할 때 유용한 함수입니다.
groupby() 함수를 이용하여 ID를 기준으로 그룹화하고 금액의 합계를 보여줍니다.
df2.groupby(by=['ID'])['금액'].sum()

agg() 함수를 활용하여 다중 통계량을 구할 수 있습니다.
agg() 함수를 이용하여 ID를 기준으로 금액의 최소값, 최대값을 보여줍니다.
df2.groupby(by=['ID']).agg({'금액': [max,min]})반응형
'Data Analysis > EDA' 카테고리의 다른 글
| [EDA] EDA는 코드보다 질문이 먼저다 : 데이터를 탐색하는 사고 순서 (0) | 2026.05.24 |
|---|---|
| [데이터 전처리] 피벗 테이블, 파일 호출 / 저장 (0) | 2023.05.03 |
| [데이터 전처리] 데이터 결합 (0) | 2023.05.01 |
| [데이터 전처리] 레코드 칼럼 추가, 삭제, apply.map (0) | 2023.04.27 |
| [데이터 전처리] 결측값 처리 (0) | 2023.04.26 |
@모모띠 :: Data Lab :: Journey From Data to Insight
Notice
HELLO WORLD
안녕하세요. 데이터로 말하는 분석가 모모입니다.
데이터를 구조화하고 분석하는 과정과 실무에 활용되는 도구 중심의 내용을 기록합니다.
Popular
New
Recommend