๐Ÿ’ก ์‚ฌํšŒ๊ฐ€ ์ ์  ๋ฐœ๋‹ฌํ•จ์— ๋”ฐ๋ผ ์šฐ๋ฆฌ์˜ ์‚ถ์ด ์œคํƒํ•ด์ง€๊ณ , ์ˆ˜๋ช…์ด ๋Š˜์–ด๋‚ฌ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์•ˆ ์ข‹์€ ์Šต๊ด€ (๋‹ด๋ฐฐ, ์ˆ  ๋“ฑ)์œผ๋กœ ์•„์ง ์šฐ๋ฆฌ๋Š” ๋งŽ์€ ์œ„ํ—˜์— ๋…ธ์ถœ๋˜์–ด ์žˆ๋Š”๋ฐ ๊ทธ๋กœ ์ธํ•œ ํฐ ์œ„ํ—˜ ์ค‘ ํ•˜๋‚˜๊ฐ€ ์‹ฌํ˜ˆ๊ด€ ์งˆํ™˜์ด๋‹ค. ์ด์ƒ์ง•ํ›„ ์—†์ด ๊ฐ‘์ž๊ธฐ ์ฐพ์•„์˜ค๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€ ์‹ฌํ˜ˆ๊ด€ ์งˆํ™˜์€ 2019๋…„ ํ†ต๊ณ„์ฒญ์˜ ์‚ฌ๋ง ์›์ธ ํ†ต๊ณ„ ์กฐ์‚ฌ์˜ ๊ฒฐ๊ณผ ์•” ๋‹ค์Œ์œผ๋กœ ๋†’์€ ์‚ฌ๋ง๋ฅ ์„ ๊ฐ€์ง€๋Š” ์›์ธ์œผ๋กœ ๋ฐํ˜€์กŒ์œผ๋ฉฐ, 10๋งŒ ๋ช…๋‹น 60.4๋ช…์˜ ์‚ฌ๋ง์ž๋ฅผ ๋งŒ๋“ค ์ •๋„๋กœ ์œ„ํ—˜ํ•œ ์งˆ๋ณ‘์ด๋‹ค. ์กฐ์šฉํ•˜์ง€๋งŒ ๋ชน์‹œ ์น˜๋ช…์ ์ด๊ธฐ์— ์›์ธ์„ ์•Œ๊ณ  ์˜ˆ๋ฐฉํ•˜๋Š” ๊ฒƒ์ด ์–ด๋–ค ์งˆ๋ณ‘๋ณด๋‹ค ์ค‘์š”ํ•˜๋‹ค. ์‹ฌํ˜ˆ๊ด€ ์งˆ๋ณ‘์„ ์˜ˆ๋ฐฉํ•˜๊ธฐ ๊ฐ€์žฅ ์ข‹์€ ๋ฐฉ๋ฒ•์€ ์ง์ ‘ ๋ณ‘์›์— ๊ฐ€ ๊ฒ€์‚ฌ๋ฅผ ํ•ด๋ณด๋Š” ๊ฒƒ์ด์ง€๋งŒ, ๋ฐ”์œ ์‚ฌ๋žŒ์ด๋‚˜ ํ•ด์™ธ์— ์žˆ๋Š” ์‚ฌ๋žŒ๋“ค์€ ๊ฒ€์‚ฌ๋ฅผ ๋ฐ›๊ธฐ ํž˜๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ์ƒ๊ฐํ•˜์˜€๋‹ค. ๋”ฐ๋ผ์„œ ์ง‘์—์„œ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ…Œ์ŠคํŠธ๋ฅผ ํ•ด๋ณด๊ณ  ์ž์‹ ์ด ์‹ฌํ˜ˆ๊ด€ ์งˆ๋ณ‘์ด ์žˆ๋Š”์ง€ ์•Œ๋ ค์ฃผ๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ฉด ๋ณ‘์›์— ๊ฐ€์•ผํ•˜๋Š” ๋ถˆํŽธํ•จ์„ ์ค„์—ฌ์ค„ ์ˆ˜ ์žˆ์„ ๋ฟ๋”๋Ÿฌ, ํ˜น์‹œ๋‚˜ ์žˆ์„ ์งˆ๋ณ‘์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค.

<์‚ฌ๋ง์›์ธ ํ†ต๊ณ„ ์กฐ์‚ฌ, ํ†ต๊ณ„์ฒญ, 2019>


๐Ÿ’ก ์šฐ๋ฆฌ ํŒ€์ด ์›ํ•˜๋Š” ์‹ฌํ˜ˆ๊ด€ ์งˆํ™˜ ๋ฐœ๋ณ‘ ๋ชจ๋ธ์€ ์‚ฌ์šฉ์ž๊ฐ€ ์ž์‹ ์˜ ์ •๋ณด๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๋‹ค๋ฅธ ํ™˜์ž์˜ ์ •๋ณด๋“ค๋กœ๋ถ€ํ„ฐ ํ•™์Šต๋œ ์‹ฌํ˜ˆ๊ด€ ์งˆํ™˜ ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž์˜ ์‹ฌํ˜ˆ๊ด€ ์งˆ๋ณ‘์˜ ๋ฐœ๋ณ‘ ์—ฌ๋ถ€์— ๋Œ€ํ•ด ์˜ˆ์ธกํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์‹ฌํ˜ˆ๊ด€ ์งˆํ™˜ ๋ฐœ๋ณ‘ ํ™•์ธ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ฒซ๋ฒˆ์งธ๋กœ noisy data๋‚˜, missing data๋ฅผ ์ฐพ์•„์„œ ์ˆ˜์ •์„ ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•  ๊ฒƒ์ด๋‹ค. ๋‘๋ฒˆ์งธ๋กœ attribute๋“ค์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์กฐ์‚ฌํ•ด์„œ ๋น„๊ต์  ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์ ์€ attribute๋“ค์„ ์ œ๊ฑฐํ•ด ๋ณด๊ณ , ์„ ํƒ๋œ attribute๋ฅผ ๊ฐ€์ง€๊ณ  attribute set์„ ๋งŒ๋“ค ๊ณ„ํš์ด๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ˆ˜์ •๋œ data๋ฅผ ๊ฐ€์ง€๊ณ  decision tree ์™€ random forest classification์œผ๋กœ model์˜ ์„ฑ๋Šฅ์„ ์•Œ์•„๋ณด๊ณ ์ž ํ•œ๋‹ค.


๐ŸŽฒ Hexagonal Plot :
ggplot(data, (aes(x, y)))+stat_bin_hex(color)+theme_bw()+scale_fill_gradient(low, high)+labs(x, y)

Leave a comment