๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃฐ data set์— ๋Œ€ํ•ด ๊ฐ„๋žตํžˆ ์•Œ์•„๋ณด์•˜๋‹ค. ์ด๋ฒˆ์—๋Š” ๊ฐ ๋ฐ์ดํ„ฐ์˜ ์ƒ๋Œ€์ ์ธ ์œ„์น˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋Š” ๋ช‡๊ฐ€์ง€ plot ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

1. Quantile plot

  • ๊ฐ object์— %๋ฅผ ๋ถ€์—ฌํ•จ์œผ๋กœ์จ ์–ด๋Š ์œ„์น˜์— ์กด์žฌํ•˜๋Š”์ง€ ์•Œ์•„๋‚ด๋Š” ๋ฐฉ๋ฒ•
  • Q1 : 25%์— ํ•ด๋‹นํ•˜๋Š” object
  • Q2 : 50%์— ํ•ด๋‹นํ•˜๋Š” object
  • Q3 : 75%์— ํ•ด๋‹นํ•˜๋Š” object

  • IQR : Q3 - Q1
    • ์ค‘๊ฐ„ 50%์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•˜๋Š” ๋ฒ”์œ„.
    • IQR์ด ํฌ๋ฉด ์ค‘์•™์„ ๊ธฐ์ค€์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ํผ์ ธ์žˆ์Œ์„ ์˜๋ฏธ
    • IQR์ด ์ž‘์œผ๋ฉด ์ค‘์•™์„ ๊ธฐ์ค€์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ์—ฌ์žˆ์Œ์„ ์˜๋ฏธ

๐Ÿงฉ Function

$f_{i}=(i - 0.5)/N$
  • ์ด๋•Œ i๋Š” data์˜ ์ธ๋ฑ์Šค์ด๋‹ค.
  • ex1) 1 2 3 4 5 ์— ๋Œ€ํ•ด์„œ 3์˜ f-value = (3-0.5) / 5 = 0.5 โ–ถ Q2
  • ex2) 1 2 3 4 5 6 ์— ๋Œ€ํ•ด์„œ 3์˜ f-value = (3-0.5) / 6 = 0.42โ€ฆ
  • ex2์—์„œ 4์˜ f-value = (4-0.5) / 6 = 0.583โ€ฆ
  • ๋”ฐ๋ผ์„œ ex2์—์„œ Q2๋Š” 3๊ณผ 4 ์‚ฌ์ด ์–ด๋”˜๊ฐ€์— ์กด์žฌํ•œ๋‹ค.

2. Q-Q plot

  • Quantile plot์„ ์‚ฌ์šฉํ•ด์„œ ์„œ๋กœ ๋‹ค๋ฅธ ๋‘ ์ง‘๋‹จ์ด ์–ด๋–ค ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ๋น„๊ตํ•œ๋‹ค.
  • ๋‘ ์ง‘๋‹จ์˜ Q1, Q2, Q3 ๊ฐ’์— ๋Œ€ํ•œ ์‹ค์ œ value๊ฐ’์„ ๋น„๊ตํ•˜์—ฌ ๋‘ ์ง‘๋‹จ์˜ ์ „์ฒด์ ์ธ ์ฐจ์ด๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ‘‰ model 1๊ณผ model 2๋ฅผ ์ขŒํ‘œํ‰๋ฉด์œผ๋กœ ์˜ฎ๊ธด ์œ„์˜ Q-Q plot์„ ๋ณด๋ฉด ๊ฐ™์€ Q2์— ๋Œ€ํ•ด์„œ ๊ฐ ๋ชจ๋ธ์ด ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, model 1๊ณผ model 2๊ฐ€ ๊ฐ€๊ฒฉ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ผ๋ฉด model 2๊ฐ€ modle 1๋ณด๋‹ค ๋น„์‹ผ ๊ฐ€๊ฒฉ์ด ์ข€ ๋” ๋งŽ์„ ๊ฑฐ๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

๐Ÿงฉ ์ „์ฒด์ ์ธ ๊ฐœํ˜•์„ ํ•œ๋ˆˆ์— ์•Œ์•„๋ณด๊ณ  ๋Œ€๋žต์ ์œผ๋กœ ๋น„๊ตํ•˜๊ธฐ์—๋Š” ์ข‹์€ ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ์„ธ๋ถ€์ ์ธ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ์—๋Š” ๊ทธ๋ ‡๊ฒŒ ์„ฑ๋Šฅ์ด ์ข‹์ง€๋Š” ์•Š๋‹ค.


3. Scatter plot

  • ์‚ฐ์ ๋„. ๋‘ attribute ๊ฐ„์˜ ๊ด€๊ณ„ ํŒŒ์•….

๐Ÿ‘‰ ์œ„ ๊ทธ๋ž˜ํ”„๋“ค์˜ x์ถ•๊ณผ y์ถ•์„ ๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ, ๊ฐ object๋“ค์˜ ๋‘ attribute ๋ฐ์ดํ„ฐ๋ฅผ ํ•ด๋‹นํ•˜๋Š” ์ขŒํ‘œ์— ํฉ๋ฟŒ๋ ค์„œ ๊ด€๊ณ„๋ฅผ ์•Œ์•„๋‚ธ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฟŒ๋ ค๋‘” ์ ๋“ค์˜ ๋Œ€๋žต์ ์ธ ๊ฒฝํ–ฅ์„ ๋ณด๋ฉด ๋‘ attribute๊ฐ€ ์–ด๋–ค ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์„์ง€๋ฅผ ์ง์ž‘ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

๐Ÿ‘‰ ์œ„์˜ ๋‘ scatter plot์—์„œ ์™ผ์ชฝ์ด positiveํ•˜๊ฒŒ correlated๋˜์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ฉฐ, ๋ฐ˜๋Œ€๋กœ ์˜ค๋ฅธ์ชฝ์€ negativeํ•œ ๊ด€๊ณ„๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ํ•ญ์ƒ ์ด๋ ‡๊ฒŒ ๋ˆˆ์— ๋„๋Š” ์—ฐ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹Œ๋ฐ, ์ด๋Š” ์•„๋ž˜ plot์— ๋‚˜ํƒ€๋ƒˆ๋‹ค.

๐Ÿงฉ scatter plot์˜ ๊ฒฐ๊ณผ ๋‘ attribute๊ฐ€ ์„œ๋กœ ์–ด๋–ค ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์ง€๋งŒ, ๋ณ„ ๊ด€๊ณ„๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ ์—ญ์‹œ ์‚ดํŽด๋ดค๋‹ค. ์–ด๋Š ์ •๋„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ๋ˆˆ์— ๋„๋Š” ์—ฐ๊ด€๊ด€๊ณ„๋‚˜ ์„ ํ˜•๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฝ์šฐ๋Š” ๊ฑฐ์˜ ์—†๋‹ค. ๊ทธ๋ž˜์„œ ์ด์™€ ๊ด€๋ จ๋œ ์—ฌ๋Ÿฌ๊ฐ€์ง€ metric์ด ๋งŒ๋“ค์–ด์ง„ ๊ฒƒ์ด๋‹ค. ์ด์™€ ๊ด€๋ จํ•ด์„œ๋Š” Data preprocessing์—์„œ ๋‹ค๋ฃฐ ์˜ˆ์ •์ด๋‹ค.


๐Ÿงฉ ์ด๋ ‡๊ฒŒ ํ•ด์„œ QQ plot๊ณผ scatter plot๊นŒ์ง€ ๋‹ค๋ค„๋ณด์•˜๋‹ค. Quantile plot์„ ์ข€ ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ†ต๊ณ„ํ•™์ ์ธ ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ•ด์ค˜์•ผ ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹์„ ๊ณต๋ถ€ํ•˜๋Š” ์ง€๊ธˆ์€ ๊ฐœ๋…๊ณผ ์‚ฌ์šฉ๋ฒ•์„ ์•„๋Š” ๊ฒƒ์ด ๋” ์ค‘์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•ด์„œ ๊นŠ๊ฒŒ ๋‹ค๋ฃจ์ง€๋Š” ์•Š์•˜๋‹ค. ์ผ๋‹จ ์ „์ฒด์ ์œผ๋กœ ํ•œ๋ฒˆ ๋ณด๊ณ  ๋‚˜์„œ, ์„ธ๋ถ€์ ์ธ ๋ถ€๋ถ„์„ ์žก์•„๋‚˜๊ฐˆ ๋•Œ ๋‹ค๋ค„๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค๐Ÿ˜Š.

๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…๊ณผ ์ด๋ฒˆ ํฌ์ŠคํŒ…์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹์„ ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ์ดˆ๋ฅผ 1/3 ์ •๋„๋Š” ๋ฐฐ์šด ๊ฒƒ ๊ฐ™๋‹ค. ๋‹ค์Œ ํฌ์ŠคํŒ…๋ถ€ํ„ฐ๋Š” ๋งˆ์ง€๋ง‰ 2/3์„ ์ฑ„์šฐ๊ธฐ ์œ„ํ•œ Distance measure๋ฅผ ๋ฐฐ์›Œ๋ณด์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment