🏆🏆 3. 미국 연도별 출생 빈도를 알아보자 (1)

🏆 미국 질병 관리청(CDC) 에서 제공하는 출생 인구 수를 가지고 데이터 분석을 진행해 보자.

🏆 이번 포스팅에서는 pd . to_datetime( ) 함수를 사용하는 법과 중간 부분의 데이터를 슬라이싱 하는 법을 중점으로 진행한다.

1. 데이터 불러오기

import pandas as pd
birth = pd.read_csv("Data/births.csv", encoding = 'utf-8-sig')
birth.head()

>>
	year	month	day	    gender	births
1969	1	    1.0	    F	    4046
1969	1	    1.0	    M	    4440
1969	1	    2.0	    F	    4454
1969	1	    2.0	    M	    4548
1969	1	    3.0	    F	    4548

년, 월, 일, 성별, 출생 수의 데이터를 가지는 것을 확인하자.

2. 데이터 전처리하기

birth.info()

>>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15547 entries, 0 to 15546
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    15547 non-null  int64  
 1   month   15547 non-null  int64  
 2   day     15067 non-null  float64
 3   gender  15547 non-null  object 
 4   births  15547 non-null  int64  
dtypes: float64(1), int64(3), object(1)
memory usage: 607.4+ KB

위의 info( ) 함수 출력으로부터 day에 대한 정보가 없는 것을 확인할 수 있다. 어느 구간이 결측치를 갖는지 확인하기 위해 .isnull( ) 함수를 사용해보자.

birth[birth['day'].isnull()]

>>

        year	month	day	    gender	births
1989	1	    NaN	    F	    156749
1989	1	    NaN	    M	    164052
1989	2	    NaN	    F	    146710
1989	2	    NaN	    M	    154047
1989	3	    NaN	    F	    165889

...	...	...	...	...	 ...

2008	10	    NaN	    M	    183219
2008	11	    NaN	    F	    158939
2008	11	    NaN	    M	    165468
2008	12	    NaN	    F	    173215
2008	12	    NaN	    M	    181235

rows × 5 columns

이렇게 1989 ~ 2008 기간은 day 에 대한 정보가 없음을 확인할 수 있다. 앞으로 있을 전처리 과정은 birth 데이터프레임을 1989년 이전과 이후로 나눠서 진행할 것이다.

데이터프레임을 나누는 방법은 전혀 어렵지 않다. 어차피 인덱싱이 다 되어 있는 상태이기 때문에 인덱스로 슬라이싱 을 해주면 된다.

인덱스 번호 15067이 1989년도의 첫번째 데이터를 의미하므로 그 앞까지 슬라이싱하면 1988년도까지의 데이터를 얻을 수 있다.

birth_til_1988 = birth[:15067]

이제 이 데이터를 남성과 여성으로 나누는 전처리를 진행한다.

🏆 1969 ~ 1988 여성 출생 데이터

birth_til_1988_F = birth_til_1988[birth_til_1988['gender'] == 'F'].copy()
birth_til_1988_F = birth_til_1988_F.groupby(by = ['year', 'month']).aggregate({'births' : 'sum'})
birth_til_1988_F = birth_til_1988_F.reset_index()
birth_til_1988_F.tail()

>>
    year	month	births
1988	8	    173088
1988	9	    169923
1988	10	    162361
1988	11	    153134
1988	12	    157444

🏆 1969 ~ 1988 남성 출생 데이터

birth_til_1988_M = birth_til_1988[birth_til_1988['gender'] == 'M'].copy()
birth_til_1988_M = birth_til_1988_M.groupby(by = ['year', 'month']).aggregate({'births' : 'sum'})
birth_til_1988_M = birth_til_1988_M.reset_index()
birth_til_1988_M.tail()

>>
    year	month	births
1988	8	    181511
1988	9	    177354
1988	10	    169272
1988	11	    161532
1988	12	    164883

🏆 1989 ~ 2008 여성 출생 데이터

birth_after_1989 = birth[15067:]
birth_after_1989_F = birth_after_1989[birth_after_1989['gender']=="F"].copy()
birth_after_1989_F = birth_after_1989_F[['year','month','births']].copy()
birth_after_1989_F.head()

>>
        year	month	births
1989	1	    156749
1989	2	    146710
1989	3	    165889
1989	4	    155689
1989	5	    163800

🏆 1989 ~ 2008 남성 출생 데이터

birth_after_1989_M = birth_after_1989[birth_after_1989['gender']=="M"].copy()
birth_after_1989_M = birth_after_1989_M[['year','month','births']].copy()
birth_after_1989_M.head()

>>
        year	month	births
1989	1	    164052
1989	2	    154047
1989	3	    174433
1989	4	    163432
1989	5	    172892

마지막으로 성별끼리 데이터프레임을 합쳐주자.

birth_F = pd.concat([birth_til_1988_F, birth_after_1989_F])
birth_M = pd.concat([birth_til_1988_M, birth_after_1989_M])

🏆 위의 과정을 통해서 원하는 형태의 데이터를 만드는 데에 성공했다. 다음 포스팅에서는 이를 바탕으로 아래의 데이터분석 작업을 진행해 보자😊.

연도별 남성 / 여성 출생 수 비교
요일별 출생 추이 확인
1969년 일별 출생 추이 파악
분기별 출생 추이 (1969 ~ 2008)

💡파이썬 데이터 사이언스 핸드북(위키북스,2020)의 저자 Jake VanderPlas 분의 깃허브에서 데이터를 가져왔음을 밝힙니다.

Share on

Twitter Facebook LinkedIn

Programin9

🏆🏆 3. 미국 연도별 출생 빈도를 알아보자 (1)

1. 데이터 불러오기

2. 데이터 전처리하기

Share on

Leave a comment

You may also enjoy

2023.01.14
🆘 블로그 이전 안내

2023.01.14
🆘 블로그 이전 안내

2023.01.12
🫀심혈관질환 분석 09-패턴분석4

2023.01.11
🫀심혈관질환 분석 08-패턴분석3

Programin9

1. 데이터 불러오기

2. 데이터 전처리하기

Share on

Leave a comment

You may also enjoy

2023.01.14 🆘 블로그 이전 안내

2023.01.14 🆘 블로그 이전 안내

2023.01.12 🫀심혈관질환 분석 09-패턴분석4

2023.01.11 🫀심혈관질환 분석 08-패턴분석3

2023.01.14
🆘 블로그 이전 안내

2023.01.14
🆘 블로그 이전 안내

2023.01.12
🫀심혈관질환 분석 09-패턴분석4

2023.01.11
🫀심혈관질환 분석 08-패턴분석3