๐ซ์ฌํ๊ด์งํ ๋ถ์ 03-๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๐จ ์ ๋ฒ ์
๋ก๋ ๋ด์ฉ์์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ณ , ์์ผ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ ๋ฐฉํฅ์ ์์๋ณด์๋ค. ์ด๋ฒ ํฌ์คํ
์์๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํด์ ์ฌ์ฉํ ๋งํ ๋ฐ์ดํฐ๋ก ๋ง๋๋ ๊ณผ์ ์ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
๐จ ๋จผ์ ๋ฐ์ดํฐ๊ฐ ์ด๋ป๊ฒ ์๊ฒผ์๋์ง ํ๋ฒ ๋ ์ดํด๋ณด๋๋ก ํ์!!
๐ซ Data Info
๐จ ๋ฐ์ดํฐ๋ ์์ ๊ฐ์ด ์๊ฒผ๋ค. ์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ์ ๋ณด๋ค์ ๊ฐ์ง๊ณ ์๋์ง ์์๋ณด์.
cardio.info()
>>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 13 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 70000 non-null int64
1 age 70000 non-null int64
2 gender 70000 non-null int64
3 height 70000 non-null int64
4 weight 70000 non-null float64
5 ap_hi 70000 non-null int64
6 ap_lo 70000 non-null int64
7 cholesterol 70000 non-null int64
8 gluc 70000 non-null int64
9 smoke 70000 non-null int64
10 alco 70000 non-null int64
11 active 70000 non-null int64
12 cardio 70000 non-null int64
dtypes: float64(1), int64(12)
memory usage: 6.9 MB
๐จ ์์์ ๋ดค๋ฏ์ด ๋ฐ์ดํฐ๋ 70000๋ช
์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ผ๋ฉฐ, weight ๋ฅผ ์ ์ธํ ๊ฐ๊ฐ์ attribute๋ int64 ์ ์๋ฃํ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋คํํ๋ ๊ฒฐ์ธก๊ฐ์ ํ๋๋ ์๋ ๊ฒ์ ์ ์ ์๋ค.
๐ซ Data adjustment
๐จ ์์ ๋ฐ์ดํฐ์์ weight์ height attribute๊ฐ ์๋ ์ด์ ๋ ๊ฐ ํผํ์๋ค์ ๋น๋ง์จ์ ์์๋ณด๊ธฐ ์ํด์๋ผ๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ข ๋ ๋ณดํธ์ ์ธ ์์น๋ก ๋ฐ๊ฟ์ฃผ๊ธฐ ์ํด์ BMI ๋ผ๋ ์์น๋ฅผ ์ฌ์ฉํ๊ธฐ๋ก ํ๋ค.
๐จ ๋ํ ์์ ๋ฐ์ดํฐ์์ age๊ฐ ์๋นํ ํฐ ์์์ ํ์ธ ํ ์ ์์๋ค. ์๋ง ์ด์์จ ๋ ์ง๋ก ๋์ด๋ฅผ ํํํ ๊ฒ ๊ฐ์, ๊ฐ๊ฐ์ 365๋ก ๋๋๊ณ ์์์ ์ฒซ์งธ์๋ฆฌ์์ ๋ฐ์ฌ๋ฆผํด์ฃผ์๋ค.
๐จ ๊ทธ๋ฆฌ๊ณ ๋์ ์ฌ์ฉํ์ง ์์ attribute์ธ id, height, weight๋ฅผ ๋ชจ๋ ์ญ์ ํ๋ค. ์ฝ๋๋ ์๋์ ๊ฐ๋ค.
cardio['age'] = cardio['age'] / 365
cardio['age'] = round(cardio['age'], 0).astype('int64').copy()
cardio['height'] = cardio['height'] / 100
cardio['BMI'] = cardio['weight'] / (cardio['height']**2)
cardio['BMI'] = round(cardio['BMI'], 2).copy()
cardio = cardio.drop(['id','height','weight'], axis = 1)
cardio.head()
๐ซ Blood pressure preprocessing
๐จ ์ผ๋ฐ์ ์ผ๋ก ์ฐ๋ฆฌ๊ฐ ์๊ฐํ๊ธฐ์ ์ฌํ๊ด ์งํ์ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ํ์์ด๋ผ๊ณ ์๊ฐํ๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ์์ ํ์์ ๋ํ ๋ถ๋ถ์ ํ๋ฒ ์ง์ด๋ด์ ๊ฒ ๋ค๊ณ ์๊ฐํ๋ค. ๋ฐ๋ผ์ ap_hi(์์ถ๊ธฐํ์)์ ap_lo(์ด์๊ธฐํ์) attribute ๊ฐ๊ฐ์ info๋ฅผ ํ์ธํ๋ค.
pd.DataFrame({'ap_hi' : cardio['ap_hi'].describe(), 'ap_lo' : cardio['ap_lo'].describe()})
>>
ap_hi ap_lo
count 70000.000000 70000.000000
mean 128.817286 96.630414
std 154.011419 188.472530
min -150.000000 -70.000000
25% 120.000000 80.000000
50% 120.000000 80.000000
75% 140.000000 90.000000
max 16020.000000 11000.000000
๐จ ๋ถ๋ช
ํ ํ์์ ๋ํ attribute ์์๋ ์์ ๋๋ max ๊ฐ์ด 10,000 ์ด ๋๋ ๊ฒฝ์ฐ๊ฐ ์์์ ํ์ธํ ์ ์์๋ค. ์ด๋ฌํ ๊ฐ๋ค์ด ์ผ๋ง๋ ํผ์ ธ์๋์ง ์์๋ณด๊ธฐ ์ํด์ ap_hi, ap_lo ์ ๋ํ box plot์ ๊ทธ๋ ค๋ณด์๋ค.
# plotly library๋ฅผ ์ฌ์ฉํด์ Box plot ์์ฑ
fig = go.Figure()
fig.add_trace(go.Box(y=cardio['ap_hi'], name = 'ap_hi'))
fig.add_trace(go.Box(y=cardio['ap_lo'], name = 'ap_lo'))
fig.show()
๐จ ๋ณธ ๊ธ์ ์๋ box plot์ ์ถ๋ ฅ๋ ๊ทธ๋ํ๋ฅผ ์บก์ฒํ ๊ฒ์ด๋ผ ๋ณด์ด์ง ์์ง๋ง, iplot์ ์ฌ์ฉํด์ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆฌ๋ฉด ์ฌ์ฉ์์ ๋ง์ฐ์ค ์ปค์์ ๋ฐ์ํ์ฌ ๊ฐ box plot์ upper fence / lower fence๋ฅผ ์ ์ ์๋ค. ์ด๋ ๊ฐ๊ฐ์ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค.
- ap_hi : upper_fence = 170 / lower_fence = 90
- ap_lo : upper_fence = 105 / lower_fence = 65
๐จ ์ด์ ์ด ๊ฐ๋ค์ ์ด์ / ์ดํ์ ์ํ๋ ๊ฐ๋ค์ outlier๋ก ์๊ฐํด์ ์์ ์ฃผ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฒ๋ฆฌํ ๊ฒ์ด๋ค. ๋ํ, ์ผ๋ฐ์ ์ผ๋ก ํ์์ด ์์ถํ ๋๊ฐ ์ด์ํ ๋ ๋ณด๋ค ๋์์ผ ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ap_hi๊ฐ ap_lo๋ณด๋ค ๋ฎ์ ํ ์ญ์ ์ญ์ ํด ์ค ๊ฒ์ด๋ค.
# ap_hi (์์ถํ์)๊ฐ ap_lo (์ด์ํ์)๋ณด๋ค ๋ฎ์ ํ ์ญ์
# ์กฐ๊ฑด์ ๋ง์กฑํ๋ row์ index๋ฅผ ๋ฐ์์ ์ญ์ ํ ์ธ๋ฑ์ค๋ก ์ ์ฅ - Index ์๋ฃํ
# .drop() ํจ์๋ฅผ ์ฌ์ฉํด์ ์ญ์ ์งํ - ์ ์ฅํ ์ธ๋ฑ์ค๋ฅผ parameter๋ก ๋ฐ์ row ์ญ์
low_drop_index = cardio[(cardio['ap_hi'] < cardio['ap_lo'])].index
cardio = cardio.drop(low_drop_index).copy()
# Ap_hi Preprocessing
# ์ ์์ ๋์ผ
drop_index_sys = cardio[(cardio['ap_hi'] < 90) | (cardio['ap_hi'] > 170)].index
cardio = cardio.drop(drop_index_sys).copy()
# Ap_lo Preprocessing
# ์ ์์ ๋์ผ
drop_index_dias = cardio[(cardio['ap_lo'] < 65) | (cardio['ap_lo'] > 105)].index
cardio = cardio.drop(drop_index_dias).copy()
len(cardio)
64500
๐จ ์ด๋ ๊ฒ ํ์์ ๋ํ ์ ์ฒ๋ฆฌ ๊ฒฐ๊ณผ 70000๊ฐ์ ํ ์ค์์ 64500๊ฐ์ ํ๋ง ๋จ์ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ๋ํ box plot์ ๊ทธ๋ ค๋ณด๋๋ก ํ์.
# plotly library๋ฅผ ์ฌ์ฉํด์ Box plot ์์ฑ
fig = go.Figure()
fig.add_trace(go.Box(y=cardio['ap_hi'], name = 'ap_hi'))
fig.add_trace(go.Box(y=cardio['ap_lo'], name = 'ap_lo'))
fig.show()
๐จ ์ด๋ ๊ฒ ํด์ ์ฃผ์ attribute์ ์ ์ฒ๋ฆฌ๋ฅผ ์๋ฃํ๋ค. ๋ค์ ๊ธ์์๋ ๋ค๋ฅธ attribute์ ๊ฒฝ์ฐ์๋ ์ด๋ฐ noisy data๋ case์ ํด๋นํ์ง ์๋ ๊ฒฝ์ฐ๊ฐ ์๋์ง ํ์ธํด๋ณด๋๋ก ํ์.
Leave a comment