๐งฉ ๋ฐ์ดํฐ๋ง์ด๋(12) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ_5 : Reduction / ์ ํํ๊ท
๐งฉ ์ ๋ฒ ํฌ์คํ ์ ํตํด ๋ฐ์ดํฐ์ dimension์ ์ค์ด๋ Data Reduction์ ์ข ๋ฅ์ ๋ํด ์์๋ณด์๋ค. ์ด๋ฒ์๋ object๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ ์ค ํ๋์ธ Linear Regression์ ๋ํด์ ์์๋ณด๋๋ก ํ์.
1. Parametric Data Reduction : Regression Analysis
๐งฉ ๋ฐ์ดํฐ์ object๋ฅผ ์ค์ด๋ Numerosity Reduction์๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๊ณผ ์ฌ์ฉํ์ง ์๋ ๋ฐฉ๋ฒ์ด ์๋ค. ์ค๋ ์์๋ณผ Linear Regression์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ Parametric Method๊ฐ ๋ฌด์์ธ๊ฐ๋ถํฐ ๊ฐ๋จํ ๋ณด๋๋ก ํ์.
๐งฉ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ดํด๊ฐ ํธํ ๊ฒ ๊ฐ์์ ๊ทธ๋ฆผ์ ํ๋ ๊ทธ๋ ค๋ณด์๋ค.
๐ ์์ ๊ทธ๋ฆผ์์ ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ๊ฐ ์ด๋ค linaer ํ ๊ด๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฑฐ๋ผ๊ณ ๊ฐ์ ํ๊ณ , ๊ทธ ๋ชจ๋ธ์ $y=ax+b$๋ผ๊ณ ๋๋ค. ๊ทธ๋ฌ๋ฉด ๊ทธ ๋ชจ๋ธ์ $x_1$์ด๋ผ๋ ๋ ๋ฆฝ๋ณ์๋ฅผ ๋์ ํ์ฌ $\hat{y}_1$์ด๋ผ๋ ์์ธก๊ฐ์ ๊ตฌํ ์ ์๋ค. ์ดํ์๋ ์ข ์๋ณ์ $x_1$์ ๋ํด ํด๋น ๋ฐ์ดํฐ์ ์๋ ๊ฐ์ธ $y_1$์ ์์ธก๊ฐ ์ฌ์ด์ Error๋ฅผ ์ค์ฌ๋๊ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๋ฆฌ์ parameter๋ฅผ ์ ๋ฐ์ดํธํ๋ฉฐ ๋ชจ๋ธ์ ๊ฒฐ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด Error๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์๋ assumption model์ ๋ฐ๋ผ ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
2. Linear Regression
๐งฉ ์์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ ์ค๋ช
์ ์ํ ์ต์ ์ ๋ชจ๋ธ์ ์ฐพ์๋๊ฐ๋๋ฐ, ์ด๋ ์ฌ์ฉ๋๋ ๊ฐ์ ์ ์ข
๋ฅ์ ๋ฐ๋ผ์ ๊ทธ ๋ชจ๋ธ์ ํํ๊ฐ ๋ฌ๋ผ์ง๋ค๋ ๊ฒ์ ์ฝ๊ฒ ์์ธกํ ์ ์์ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ํํ๊ฐ ์์์ ๋ ์์์ฒ๋ผ ์ ํ์ ์ธ ํํ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ ์ด ์์ธก ๋ชจ๋ธ์ Linear Regression Model์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ฆ, ๋
๋ฆฝ๋ณ์ $x$์ ์ข
์๋ณ์ $y$ ์ฌ์ด์ ์ ํ์ ์ธ ๊ด๊ณ๊ฐ ์๋ค๋ assumption ํ์์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ํ ๋ฒ ์์๋ณด๋๋ก ํ์.
- assumption model : $Y=WX+b\;\;(y = \hat{ฮฒ}_1x+\hat{ฮฒ}_0)$
- ์ง์ ์ผ๋ก ํํ๋๋ ๋ชจ๋ธ
- Parameter : $W,\;\,b\;\;(\hat{ฮฒ}_1,\;\hat{ฮฒ}_0)$
- Error Method : $Least-Squared\;Method\;(LSM)$
๐ ์ด๋ฆ์ ์ด๋ ค์ ๋ณด์ด์ง๋ง ๋์ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์์์ ๋งํ ๊ธฐ๋ณธ์ ์ธ ์๋ฆฌ๋ฅผ ๋ฒ์ด๋์ง ์๋๋ค. ๊ฐ์ ์ ์ํ ๋ชจ๋ธ์ ํ๋ ๋ง๋ค๊ณ , ๊ทธ์ ๋ํ ์์ธก๊ฐ์ ๊ตฌํด ์ค์ ๊ฐ๊ณผ์ Error๋ฅผ ๊ณ์ฐํ ๋ค ์ค์ฐจ๋ฅผ ์ต์ํํ ์ ์๋๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธํ๋ฉด ๋์ด๋ค. ๋ค๋ง ์ฌ๊ธฐ์ ์ ์ํ ์ ์ ์ฒ์์ ๋ชจ๋ธ์ ๊ฐ์ ํ ๋ ์ด๋ ์ ๋๋ ๋ฐ์ดํฐ์ ์ ์ฒด์ ์ธ ๊ฐํ๊ณผ ๋น์ทํด์ผํ๋ค๋ ์ ๊ณผ Error๋ฅผ ๊ณ์ฐํ๋ Method์ ์ ์ ํ ์ ํ์ด ์์ ๊ฒ์ด๋ค. ์์์ ๋ดค๋ฏ์ด Linear Regression์์๋ ์ฃผ๋ก LSM ์ ์ฌ์ฉํ ํ
๋ฐ, ์ด์ ๋ ์ด์ ๋ํด ์์๋ณด๋๋ก ํ์.
โญ $Least\;Squared\;Method : Residual\;Sum\;of\;Squares\;(RSS)$
์์ ์์ ์ฒ์ฒํ ์ดํด๋ณด๋ฉด ์๊ฒ ์ง๋ง, ๊ฐ ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ Error์ ์ ๊ณฑ์ ํฉ์ผ๋ก model์ ๋ํ ์ ์ฒด Error๊ฐ ๊ตฌํด์ง๋ค.
์ต์ข
์ ์ผ๋ก ์ด Error๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์์ผ ํ๋๋ฐ, ๊ทธ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์๋์ ๊ฐ๋ค.
โญ $Least\;Square\;Approach:\;Minimize\;RSS$
์์ ์์์์ $\overline{x}$์ $\overline{y}$๋ ๊ฐ๊ฐ ๋ ๋ฆฝ๋ณ์์ ์ข ์๋ณ์์ ํ๊ท ์ ์๋ฏธํ๋ค. ์ฆ ์์ธก๊ฐ์์ ์๋ ๋ฐ์ดํฐ์ ๋ํ ์ ๋ณด๋ฅผ ๋นผ๋ ์ฐ์ฐ์ ๋ฐํ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ์์ ๋ณต์กํ์ง๋ง, ๊ทธ ์๋ฏธ์ ์ฐ์ฐ ๊ณผ์ ์ ์ ๋ง ๊ฐ๋จํ ์๋ฆฌ๋ก ๊ตฌ์ฑ๋์ด ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ํ์ง๋ง ์ฌ๋์ด ๋น ๋ฐ์ดํฐ์ ๋ํด์ ์ ์ฐ์ฐ์ ํ๊ธฐ์๋ ์์ด ๋๋ฌด ๋ง๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ๋จธ์ ์ ํตํด์ ์ด ๊ณผ์ ๋ค์ ์ํํ ์ ์๋ค. Linear Regression์ ๋ธ๋ก๊ทธ์ ๋ ์์ธํ๊ฒ ์ฌ๋ ค๋์์ผ๋ ์๋ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค๐๐.
๐ ๋จธ์ ๋ฌ๋ - Linear Regression ํฌ์คํ ๋ชจ์
๐งฉ Linear Regression์ ๋ค์ด๋ณธ ์ ์ด ์๋ค๋ฉด ์๋ง ๋๋ถ๋ถ ๋จธ์ ๋ฌ๋์์ ๊ทธ ์ด๋ฆ์ ๋ค์ด๋ดค์ ๊ฒ์ด๋ค. ํ์ง๋ง ์์ ๋๋ถ๋ถ์ ํฌ์คํ ์์ ๋ณผ ์ ์๋ฏ์ด ๋ฐ์ดํฐ๋ง์ด๋์ ํต๊ณํ์ด๋ ๋จธ์ ๋ฌ๋ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ๊ด๋ จ์ด ์๋ ํ๋ฌธ์ด๋ค. ๊ทธ๋์ ํ๋๋ฅผ ์๋ฉด ๋ค๋ฅธ ํ๋๋ ์ดํดํ๊ณ , ๋ ๋ค๋ฅธ ํ๋๋ ์ดํดํ ์ ์๋ ๊ทธ์ผ๋ง๋ก ๊ผฌ๊ผฌ๋ฌดํ๋ค๋ ๋๋์ด ๋ค์๋ค. ๊ทธ๋งํผ ์์ด ๋ง๊ณ ๋ฒ์๊ฐ ๋์ง๋ง, ์ฐจ๊ทผ์ฐจ๊ทผ ๋ฐ๋ผ๊ฐ๋ฉด ์ดํด๊ฐ ์ด๋ ค์ด ํ๋ฌธ์ ์๋๋ผ๊ณ ์๊ฐํ๋ค๐.
๐งฉ ๋ค์ ํฌ์คํ ์์๋ object๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ ์ค ๋๋ฒ์งธ์ธ Nonparametric Method์ ๋ํด ์์๋ณด๋๋ก ํ์๐โโ๏ธ๐โโ๏ธ.
Leave a comment