๐ซ์ฌํ๊ด์งํ ๋ถ์ 05-์๊ด๊ด๊ณ ํ์ธ
๐จ ์ ๋ฒ ๊ธ์์ ๋ฐ์ดํฐ๋ฅผ ์ต์ข
์ ์ผ๋ก ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ ๋ค๋ค๋ค. ์ด๋ฒ ๊ธ์์๋ ์ด๋ ๊ฒ ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ด๊ด๊ณ ์ฆ correlation์ ๋ถ์ํด๋ณผ ๊ฒ์ด๋ค.
๐จ ์ด ๊ธ์ ์์์ผ๋ก ๋ฐ์ดํฐ์ ๊ฐ attribute ๊ฐ์ ์ฐ๊ด๊ด๊ณ๋ฅผ ๋ถ์ํด๋ณผ ์๊ฐ์ด๋ค. ์ด์ฉ๋ฉด ๋ฐ์ดํฐ๋ง์ด๋ ์๊ฐ์ ๊ฐ์ฅ ๋น์ค์๊ฒ ๋ค๋ฃฌ ๋ด์ฉ๋ค์ธ ๋งํผ ๋ง์ ๋ด์ฉ์ ๋ค๋ฃฐ ๊ฒ์ด๋ค.
๐ซ 1. Preprocessing ๋ cardio ๋ฐ์ดํฐ ์ํฌํธ
๐จ ๋จผ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ณ ์ ์ฒ๋ฆฌํ ์ฝ๋๋ฅผ ์ ๋ฆฌํด๋ณด์๋ค. ๊ฐ๋จํ๊ฒ ์ดํด๋ณด์.
# ๋ฐ์ดํฐ ์ํฌํธ ๋ฐ ์ ์ฒ๋ฆฌ๋ฅผ ์ํ pandas / numpy library ์ํฌํธ
import pandas as pd
import numpy as np
# ์๊ฐํ๋ฅผ ์ํ seaborn, matplotlib ์ํฌํธ
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
%matplotlib inline
cardio = pd.read_csv('C:\\Users\mingu\Desktop\\cardio_train.csv', sep=';')
# day๊ธฐ์ค age๋ฅผ year ๊ธฐ์ค์ผ๋ก ๋ณํ : 365๋ก ๋๋๊ณ ์์์ ์ฒซ์งธ์๋ฆฌ์์ ๋ฐ์ฌ๋ฆผ
cardio['age'] = cardio['age'] / 365
cardio['age'] = round(cardio['age'], 0).astype('int64').copy()
# BMI attribute ์์ฑ
cardio['height'] = cardio['height'] / 100
cardio['BMI'] = cardio['weight'] / (cardio['height']**2)
cardio['BMI'] = round(cardio['BMI'], 2).copy()
# id, height, weight attribute ์ญ์
cardio = cardio.drop(['id','height','weight'], axis = 1)
# ์์ถ๊ธฐํ์์ด ์ด์๊ธฐํ์๋ณด๋ค ๋ฎ์ row ์ญ์
low_drop_index = cardio[(cardio['ap_hi'] < cardio['ap_lo'])].index
cardio = cardio.drop(low_drop_index).copy()
# 90mmHg ์ดํ, 200mmHg ์ด์์ Ap_hi ํ์ ์ ๊ฑฐ
drop_index_sys = cardio[(cardio['ap_hi'] < 90) | (cardio['ap_hi'] > 170)].index
cardio = cardio.drop(drop_index_sys).copy()
# 60mmHg ์ดํ, 140mmHg ์ด์์ Ap_lo ํ์ ์ ๊ฑฐ
drop_index_dias = cardio[(cardio['ap_lo'] < 65) | (cardio['ap_lo'] > 105)].index
cardio = cardio.drop(drop_index_dias).copy()
cardio
๐ซ 2. Correlation Analysis
๐จ correlation ๋ถ์์ ์ํด์ .corr() ํจ์๋ฅผ ์ฌ์ฉํ ๊ฒ์ด๋ค. ์ด๋ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํํ๊ธฐ ์ํด์๋ ํ์ด์ฌ์ seaborn ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ํ์ํ๋ค. ๋ฐ๋ผ์ ์ด ์น๊ตฌ๋ถํฐ ์ํฌํธํ ๊ฒ์ด๋ค. correlation ๋ถ์์ด๋ผ๊ณ ํด์ ์ฝ๋๊ฐ ๊ธด ๊ฒ์ด ์๋๋ค. ํจ์ ํ๋๋ง ๊ฐ์ง๊ณ ๋ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฐ attribute์ ์ฐ๊ด๊ด๊ณ๋ฅผ ์ฝ๊ฒ ์ ์ ์๋ค.
# ์๊ฐํ๋ฅผ ์ํ seaborn ์ํฌํธ
import seaborn as sns
plt.figure(figsize = (20,12))
ax = sns.heatmap(cardio.corr(), annot=True, annot_kws=dict(color='r'), cmap='Greens')
plt.show()
๐ .corr()์ ์ฌ์ฉํ attribute ๊ฐ์ ์๊ด๊ด๊ณ ๋ถ์
๐ seaborn ๋ชจ๋์ ํตํด ์๊ฐํ
๐ target์ด cardio attribute์ด๋ฏ๋ก ๋ค๋ฅธ feature๋ค๊ณผ cardio ์ฌ์ด์ ์๊ด๊ด๊ณ๋ฅผ ๋ถ์
๐จ correlation ๊ฒฐ๊ณผ
- age & cardio : 0.23
- gender & cardio : -0.0022
- ap_hi & cardio : 0.43
- ap_lo & cardio : 0.34
- cholesterol & cardio : 0.22
- gluc & cardio : 0.086
- smoke & cardio : -0.019
- alco & cardio : -0.011
- active & cardio : -0.037
- BMI & cardio : 0.15
๐จ cardio์ attribute๊ฐ์ ์๊ด๊ด๊ณ ๋ถํธ
- (+) : age, ap_hi, ap_lo, cholesterol, gluc, BMI
- (-) : gender, smoke, alco, active
๐จ cholesterol๊ณผ glucose๊ฐ ์๋ก ๋์ ์๊ด๊ด๊ณ(0.45)๋ฅผ ๊ฐ์ง๊ณ , ap_hi, ap_lo ์ญ์ ์๋นํ ๋์ ์๊ด๊ด๊ณ(0.71)๋ฅผ ๋ณด์ฌ์ค๋ค.
- ์ผ๋ฐ์ ์ธ ์๊ฐ์ผ๋ก๋ cholesterol๊ณผ glucose, ๊ทธ๋ฆฌ๊ณ ํ์์ด ์๋ก ํฐ ์๊ด๊ด๊ณ๊ฐ ์์ ๊ฒ์ด์ง๋ง, ์ด ๋ฐ์ดํฐ๋ ๊ทธ๋ ๊ฒ ํฐ ์์น๋ฅผ ๋ํ๋ด์ง๋ ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๐จ Correlation ๊ฒฐ๊ณผ ์๊ด๊ด๊ณ์ ์ ๋๊ฐ์ด ์ปค์ ๋ฌด์ํ์ง ๋ชปํ ๋งํ attribute๋ [age, ap_hi, ap_lo, cholesterol] ์ด๋ค.
๐ฉ 2022.09.08 ์ถ๊ฐ - correlation ์ ์์นํ ๋ณ์์ ์์นํ ๋ณ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์์๋ณด๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. ๋๋ ํ๋ก์ ํธ ์งํ ์์ ๋ฒ์ฃผํ ๋ณ์๊ฐ์ ๊ด๊ณ์ ๋ํด์๋ ์๊ด๊ด๊ณ ๋ถ์์ ์งํํ๊ธฐ ๋๋ฌธ์, ํน์ ์ด ๊ธ์ ์ฝ์ผ์ ๋ถ๋ค์ ๋์ ๊ฐ์ ์ค์๋ฅผ ์ ์ง๋ฅด์ง ์์์ผ๋ฉด ํ๋ค๐คฅ.
Leave a comment