๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(13) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_6 : Reduction / ๋น์ ํํ๊ท
๐งฉ ์ ๋ฒ ํฌ์คํ ์์๋ Linear Regression์ ๋ํด ๋ฐฐ์๋ณด์๋ค. ์ด๋ฒ์๋ Parametric Reduction์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ธ Nonlinear Regression์ ๋ํด ์์๋ณด๋๋ก ํ์.
1. Nonlinear Regression ์ด๋??
๐งฉ ์ฐ๋ฆฌ๊ฐ ์ด๋ฏธ ์๊ณ ์๋ฏ์ด, Parametric Reduction ์๋ linear regression๊ณผ nonlinear regression ์ด ์๋ค. ์ด๋ Linear Regression์ ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๋ผ๋ assumption ํ์์ reduction์ด ์งํ๋๋ค. ๋ฐ๋ฉด์ ์ค๋ ์ดํด๋ณผ Nonlinear Regression์ ๋ฐ์ดํฐ๊ฐ ๋น์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ ๊ฒฝ์ฐ๋ฅผ ๊ฐ์ ํ๋ค. ์ด๋ฌํ ์ฐจ์ด๋ง ์๊ณ ์์ผ๋ฉด ๋ค์ ์ด์ด์ง ๋ด์ฉ์ ์ดํดํ๋ ๋ฐ์๋ ์ด๋ ค์์ด ์์ ๊ฒ ๊ฐ๋ค.
๐ Nonlinear Regression
- ๋น์ ํ์ผ๋ก ํํ๋๋ ๋ชจ๋ธ์ ๊ฐ์
- parameter๋ฅผ ๋ ๊ฐ ์ด์ ์ฌ์ฉํจ์ผ๋ก์จ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
ํ ์ ์๋ ๊ฒฝ์ฐ์ ์๊ฐ ์ฆ๊ฐํจ
- ํ์ง๋ง ๋ฐ์ดํฐ๋ฅผ ์ธ์ธํ ์ค๋ช
ํ๋ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ overfitting (๊ณผ์ ํฉ)์ด ๋ฐ์ํ ์ ์์
- overfitting์ ์ํด์ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ฉํ์ ๋์ ์์ธก๋ ฅ์ ๋ฎ์ ๊ฒฝ์ฐ๊ฐ ์์
- ๋คํญ์์ ํํ๋ก ๋ชจ๋ธ์ด ํํ๋จ : polynominal regression
๐ ์์์ ๋ช ๊ฐ์ง ํน์ง์ ์์๋ณด์๋ค. ์์ฝํ์๋ฉด ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด์ ๋น์ ํ์ ์ธ ๋ฐ์ดํฐ๋ ์ ํํํ ์ ์๋๋ก ํ๋ ๋ชจ๋ธ์ด๋ผ๋ ๋ป์ด๋ค. ์ด์ ๋ชจ๋ธ์ ํํ๋ฅผ ์ดํด๋ณด์.
์์ ๊ฐ์ด ์ฌ๋ฌ ํญ๋ค์ ํตํด์ ๋ฐ์ดํฐ์ ๋น์ ํ์ฑ๊น์ง๋ ์ ๋ฐ์ ์ธ ํํ์ด ๊ฐ๋ฅํ๋ค. ํ์ง๋ง ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ ํํํ๋ค๊ณ ํด์ ๋ชจ๋ธ์ ํญ์ ๊ฐ์๋ฅผ ์ง๋์น๊ฒ ๋๋ ค๋ฒ๋ฆฐ๋ค๋ฉด, ์์์ ์ธ๊ธํ๋ฏ์ด overfitting์ด ๋ฐ์ํ ์ ์๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋ํ ์์ธก๋ ฅ์ด ๋ฎ์ ์ ๋ฐ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฉํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ์ ์กฐ์ ํด์ ๋ชจ๋ธ์ ์์ฑํ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ํ ์ ์๋ค.
๐ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ๋ฐฐ์ ์ผ๋, ์ด์ Nonlinear Regression์ ์ข ๋ฅ๋ฅผ ์์๋ณด๋๋ก ํ์๐.
2. Nonlinear Regression ์ข ๋ฅ
- 1. Multiple Regression
- ์ผ๋ฐ์ ์ผ๋ก๋ ํ๋์ attribute์ ๋ํด์ regression์ ํ ํ์ ๊ฐ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋น์ทํ ์์ธก๊ฐ์ ๊ฐ์ง๋ ๋ชจ๋ธ๋ผ๋ฆฌ ํฉ์น๊ฑฐ๋ ์ฐ๊ด๊ด๊ณ๊ฐ ๋์ ๋ชจ๋ธ๋ผ๋ฆฌ ํฉ์น๋ ๋ฐฉ์์ ํตํด reduction์ ์งํํจ
- ํ์ง๋ง multiple regression์ ๊ฐ๊ฐ์ regression ํ๊ธฐ๋ณด๋ค๋ y๋ผ๋ ์์ธก๊ฐ์ ์ฌ๋ฌ ์ข ๋ฅ์ attribute๋ฅผ ์ ํํจ์๋ก ์ทจ๊ธํจ์ผ๋ก์จ ๋ชจ๋ธ๋งํ๋ค.
- ์ฆ, ๋ฐ์ดํฐ์ ๋น์ ํ์ฑ์ ํํํ ์ ์๋ค.
- ๋ชจ๋ธ์ ํํ๋ ์๋์ ๊ฐ๋ค.
๐ ๊ทธ๋ฆฌ๊ณ ์ด ๊ฒฝ์ฐ ๋ชจ๋ธ์ error๋ ์๋์ ๊ฐ์ด ๊ณ์ฐ๋๋ค. ๋น์ฐํ ์ด Error๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ผ๋ฏธํฐ์ ์
๋ฐ์ดํธ๊ฐ ์ผ์ด๋๋ค.
- 2. Log-linear Model
- ๋ฐ์ดํฐ๋ฅผ ๋ก๊ทธ ์ค์ผ์ผ๋ก ํํํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ์๋ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ์๋ ์ง๋์น๊ฒ ํฐ ๊ฐ์ด ์์ผ๋ฉด ์๋์ ์ผ๋ก ์์ ๊ฐ์ ํํ์ด ๋์ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋, ๋ก๊ทธ ์ค์ผ์ผ์ ์ฌ์ฉํ๋ฉด ์ ๋ฐ์ ์ธ ๋ฐ์ดํฐ์ ์ค์ผ์ผ์ด ์ค์ด๋ค์ด attribute๊ฐ์ ๊ด๊ณ๋ฅผ ์ฐพ๊ธฐ๊ฐ ์ฌ์์ง๋ค.
- ์ด๋ฅผ ํตํด ๋์๊ด๊ณ์ ์ฐ๊ด๊ด๊ณ๋ฅผ ํ์
ํ์ฌ data reduction์ ์ํํ๋ค.
๐งฉ ์ด๋ ๊ฒ ํด์ Parametric Data Reduction์ ๋ชจ๋ ์์๋ณด์๋ค. ๋จธ์ ๋ฌ๋์์๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ด์ฉ์ด๊ณ , ๊ฐ๋จํ ์ํ ์ง์๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ํํ์ ๊ทธ ์๊ณ ๋ฆฌ์ฆ์ ์ดํดํ๊ธฐ ์ด๋ ต์ง ์์ ๊ฐ๋ ๋ค์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋ ๊ฒ ์์ฒญ ์์ธํ๊ฒ ๋ค๋ฃจ์ง๋ ์์๋ค. ํ์ง๋ง ์ด๋ฐ ๋ฐฉ๋ฒ์ ํตํด ๊ฐ์ ์์ธกํ๋ ๊ฒ ๋ฟ๋ง ์๋๋ผ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ค์ผ ์ ์๋ค๋ ์์ด๋์ด๋ฅผ ์๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๐๐.
๐งฉ ๋ค์ ํฌ์คํ ์์๋ Numerosity Reduction์ ๋ค๋ฅธ ์ข ๋ฅ์ธ Nonparametric Data Reduction์ ๋ํด์ ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment