๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(3) QQ plot
๐งฉ ์ ๋ฒ ํฌ์คํ ์์๋ ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃฐ data set์ ๋ํด ๊ฐ๋ตํ ์์๋ณด์๋ค. ์ด๋ฒ์๋ ๊ฐ ๋ฐ์ดํฐ์ ์๋์ ์ธ ์์น๋ฅผ ์ ์ ์๋ ๋ช๊ฐ์ง plot ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์.
1. Quantile plot
- ๊ฐ object์ %๋ฅผ ๋ถ์ฌํจ์ผ๋ก์จ ์ด๋ ์์น์ ์กด์ฌํ๋์ง ์์๋ด๋ ๋ฐฉ๋ฒ
- Q1 : 25%์ ํด๋นํ๋ object
- Q2 : 50%์ ํด๋นํ๋ object
-
Q3 : 75%์ ํด๋นํ๋ object
- IQR : Q3 - Q1
- ์ค๊ฐ 50%์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ๋ ๋ฒ์.
- IQR์ด ํฌ๋ฉด ์ค์์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๊ฐ ํผ์ ธ์์์ ์๋ฏธ
- IQR์ด ์์ผ๋ฉด ์ค์์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๋ชจ์ฌ์์์ ์๋ฏธ
๐งฉ Function
- ์ด๋ i๋ data์ ์ธ๋ฑ์ค์ด๋ค.
- ex1) 1 2 3 4 5 ์ ๋ํด์ 3์ f-value = (3-0.5) / 5 = 0.5 โถ Q2
- ex2) 1 2 3 4 5 6 ์ ๋ํด์ 3์ f-value = (3-0.5) / 6 = 0.42โฆ
- ex2์์ 4์ f-value = (4-0.5) / 6 = 0.583โฆ
- ๋ฐ๋ผ์ ex2์์ Q2๋ 3๊ณผ 4 ์ฌ์ด ์ด๋๊ฐ์ ์กด์ฌํ๋ค.
2. Q-Q plot
- Quantile plot์ ์ฌ์ฉํด์ ์๋ก ๋ค๋ฅธ ๋ ์ง๋จ์ด ์ด๋ค ์ฐจ์ด๊ฐ ์๋์ง ๋น๊ตํ๋ค.
- ๋ ์ง๋จ์ Q1, Q2, Q3 ๊ฐ์ ๋ํ ์ค์ value๊ฐ์ ๋น๊ตํ์ฌ ๋ ์ง๋จ์ ์ ์ฒด์ ์ธ ์ฐจ์ด๋ฅผ ํ์ ํ ์ ์๋ค.
๐ model 1๊ณผ model 2๋ฅผ ์ขํํ๋ฉด์ผ๋ก ์ฎ๊ธด ์์ Q-Q plot์ ๋ณด๋ฉด ๊ฐ์ Q2์ ๋ํด์ ๊ฐ ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ๊ฐ์ ๊ฐ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์๋ฅผ ๋ค์ด, model 1๊ณผ model 2๊ฐ ๊ฐ๊ฒฉ์ ๋ํ ๋ฐ์ดํฐ๋ผ๋ฉด model 2๊ฐ modle 1๋ณด๋ค ๋น์ผ ๊ฐ๊ฒฉ์ด ์ข ๋ ๋ง์ ๊ฑฐ๋ผ๊ณ ์๊ฐํ ์ ์๋ค.
๐งฉ ์ ์ฒด์ ์ธ ๊ฐํ์ ํ๋์ ์์๋ณด๊ณ ๋๋ต์ ์ผ๋ก ๋น๊ตํ๊ธฐ์๋ ์ข์ ๋ฐฉ๋ฒ์ด์ง๋ง, ์ธ๋ถ์ ์ธ ์ ๋ณด๋ฅผ ํ์ ํ๊ธฐ์๋ ๊ทธ๋ ๊ฒ ์ฑ๋ฅ์ด ์ข์ง๋ ์๋ค.
3. Scatter plot
- ์ฐ์ ๋. ๋ attribute ๊ฐ์ ๊ด๊ณ ํ์ .
๐ ์ ๊ทธ๋ํ๋ค์ x์ถ๊ณผ y์ถ์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, ๊ฐ object๋ค์ ๋ attribute ๋ฐ์ดํฐ๋ฅผ ํด๋นํ๋ ์ขํ์ ํฉ๋ฟ๋ ค์ ๊ด๊ณ๋ฅผ ์์๋ธ๋ค. ๋ฐ๋ผ์ ๋ฟ๋ ค๋ ์ ๋ค์ ๋๋ต์ ์ธ ๊ฒฝํฅ์ ๋ณด๋ฉด ๋ attribute๊ฐ ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์์ง๋ฅผ ์ง์ํ ์๋ ์๋ค.
๐ ์์ ๋ scatter plot์์ ์ผ์ชฝ์ด positiveํ๊ฒ correlated๋์๋ค๊ณ ํ ์ ์์ ๊ฒ์ด๋ฉฐ, ๋ฐ๋๋ก ์ค๋ฅธ์ชฝ์ negativeํ ๊ด๊ณ๊ฐ ์๋ค๊ณ ํ ์ ์์ ๊ฒ์ด๋ค. ํ์ง๋ง ํญ์ ์ด๋ ๊ฒ ๋์ ๋๋ ์ฐ๊ด๊ด๊ณ๊ฐ ์๋ ๊ฒ์ ์๋๋ฐ, ์ด๋ ์๋ plot์ ๋ํ๋๋ค.
๐งฉ scatter plot์ ๊ฒฐ๊ณผ ๋ attribute๊ฐ ์๋ก ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ ๊ฒฝ์ฐ๋ ์์ง๋ง, ๋ณ ๊ด๊ณ๊ฐ ์๋ ๊ฒฝ์ฐ ์ญ์ ์ดํด๋ดค๋ค. ์ด๋ ์ ๋ ์์ธกํ ์ ์๊ฒ ์ง๋ง, ๋์ ๋๋ ์ฐ๊ด๊ด๊ณ๋ ์ ํ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒฝ์ฐ๋ ๊ฑฐ์ ์๋ค. ๊ทธ๋์ ์ด์ ๊ด๋ จ๋ ์ฌ๋ฌ๊ฐ์ง metric์ด ๋ง๋ค์ด์ง ๊ฒ์ด๋ค. ์ด์ ๊ด๋ จํด์๋ Data preprocessing์์ ๋ค๋ฃฐ ์์ ์ด๋ค.
๐งฉ ์ด๋ ๊ฒ ํด์ QQ plot๊ณผ scatter plot๊น์ง ๋ค๋ค๋ณด์๋ค. Quantile plot์ ์ข ๋ ์์ธํ ์ดํด๋ณด๊ธฐ ์ํด์๋ ํต๊ณํ์ ์ธ ๋ฐฉ๋ฒ์ ๊ณ ๋ คํด์ค์ผ ํ์ง๋ง, ๋ฐ์ดํฐ๋ง์ด๋์ ๊ณต๋ถํ๋ ์ง๊ธ์ ๊ฐ๋ ๊ณผ ์ฌ์ฉ๋ฒ์ ์๋ ๊ฒ์ด ๋ ์ค์ํ๋ค๊ณ ์๊ฐํด์ ๊น๊ฒ ๋ค๋ฃจ์ง๋ ์์๋ค. ์ผ๋จ ์ ์ฒด์ ์ผ๋ก ํ๋ฒ ๋ณด๊ณ ๋์, ์ธ๋ถ์ ์ธ ๋ถ๋ถ์ ์ก์๋๊ฐ ๋ ๋ค๋ค๋ณด๋๋ก ํ๊ฒ ๋ค๐.
๐งฉ ์ ๋ฒ ํฌ์คํ ๊ณผ ์ด๋ฒ ํฌ์คํ ์ ํตํด ๋ฐ์ดํฐ๋ง์ด๋์ ํ๊ธฐ ์ํ ๊ธฐ์ด๋ฅผ 1/3 ์ ๋๋ ๋ฐฐ์ด ๊ฒ ๊ฐ๋ค. ๋ค์ ํฌ์คํ ๋ถํฐ๋ ๋ง์ง๋ง 2/3์ ์ฑ์ฐ๊ธฐ ์ํ Distance measure๋ฅผ ๋ฐฐ์๋ณด์๐โโ๏ธ๐โโ๏ธ.
Leave a comment