๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ dimension์„ ์ค„์ด๋Š” Data Reduction์˜ ์ข…๋ฅ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ์ด๋ฒˆ์—๋Š” object๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ Linear Regression์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.


1. Parametric Data Reduction : Regression Analysis

๐Ÿงฉ ๋ฐ์ดํ„ฐ์˜ object๋ฅผ ์ค„์ด๋Š” Numerosity Reduction์—๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ์˜ค๋Š˜ ์•Œ์•„๋ณผ Linear Regression์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— Parametric Method๊ฐ€ ๋ฌด์—‡์ธ๊ฐ€๋ถ€ํ„ฐ ๊ฐ„๋‹จํžˆ ๋ณด๋„๋ก ํ•˜์ž.

๐Ÿงฉ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ดํ•ด๊ฐ€ ํŽธํ•  ๊ฒƒ ๊ฐ™์•„์„œ ๊ทธ๋ฆผ์„ ํ•˜๋‚˜ ๊ทธ๋ ค๋ณด์•˜๋‹ค.

๐Ÿ‘‰ ์œ„์˜ ๊ทธ๋ฆผ์—์„œ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค linaer ํ•œ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์„ ๊ฑฐ๋ผ๊ณ  ๊ฐ€์ •ํ•˜๊ณ , ๊ทธ ๋ชจ๋ธ์„ $y=ax+b$๋ผ๊ณ  ๋‘”๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๊ทธ ๋ชจ๋ธ์— $x_1$์ด๋ผ๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ๋Œ€์ž…ํ•˜์—ฌ $\hat{y}_1$์ด๋ผ๋Š” ์˜ˆ์ธก๊ฐ’์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ดํ›„์—๋Š” ์ข…์†๋ณ€์ˆ˜ $x_1$์— ๋Œ€ํ•ด ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ์›๋ž˜ ๊ฐ’์ธ $y_1$์™€ ์˜ˆ์ธก๊ฐ’ ์‚ฌ์ด์˜ Error๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ€๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์šฐ๋ฆฌ์˜ parameter๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ ๋ชจ๋ธ์„ ๊ฒฐ์ •ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด Error๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์—๋Š” assumption model์— ๋”ฐ๋ผ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.


2. Linear Regression

๐Ÿงฉ ์œ„์™€ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ ์„ค๋ช…์„ ์œ„ํ•œ ์ตœ์ ์˜ ๋ชจ๋ธ์„ ์ฐพ์•„๋‚˜๊ฐ€๋Š”๋ฐ, ์ด๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐ€์ •์˜ ์ข…๋ฅ˜์— ๋”ฐ๋ผ์„œ ๊ทธ ๋ชจ๋ธ์˜ ํ˜•ํƒœ๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ๊ฒƒ์„ ์‰ฝ๊ฒŒ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ์˜ ํ˜•ํƒœ๊ฐ€ ์œ„์—์„œ ๋“  ์˜ˆ์‹œ์ฒ˜๋Ÿผ ์„ ํ˜•์ ์ธ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ์ด ์˜ˆ์ธก ๋ชจ๋ธ์„ Linear Regression Model์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ์ฆ‰, ๋…๋ฆฝ๋ณ€์ˆ˜ $x$์™€ ์ข…์†๋ณ€์ˆ˜ $y$ ์‚ฌ์ด์— ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๊ฐ€ ์žˆ๋‹ค๋Š” assumption ํ•˜์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ํ•œ ๋ฒˆ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

  • assumption model : $Y=WX+b\;\;(y = \hat{ฮฒ}_1x+\hat{ฮฒ}_0)$
  • ์ง์„ ์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ๋ชจ๋ธ
  • Parameter : $W,\;\,b\;\;(\hat{ฮฒ}_1,\;\hat{ฮฒ}_0)$
  • Error Method : $Least-Squared\;Method\;(LSM)$

๐Ÿ‘‰ ์ด๋ฆ„์€ ์–ด๋ ค์›Œ ๋ณด์ด์ง€๋งŒ ๋™์ž‘ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์œ„์—์„œ ๋งํ•œ ๊ธฐ๋ณธ์ ์ธ ์›๋ฆฌ๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š”๋‹ค. ๊ฐ€์ •์— ์˜ํ•œ ๋ชจ๋ธ์„ ํ•˜๋‚˜ ๋งŒ๋“ค๊ณ , ๊ทธ์— ๋Œ€ํ•œ ์˜ˆ์ธก๊ฐ’์„ ๊ตฌํ•ด ์‹ค์ œ ๊ฐ’๊ณผ์˜ Error๋ฅผ ๊ณ„์‚ฐํ•œ ๋’ค ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ• ์ˆ˜ ์žˆ๋„๋ก ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋ฉด ๋์ด๋‹ค. ๋‹ค๋งŒ ์—ฌ๊ธฐ์„œ ์œ ์˜ํ•  ์ ์€ ์ฒ˜์Œ์— ๋ชจ๋ธ์„ ๊ฐ€์ •ํ•  ๋•Œ ์–ด๋Š ์ •๋„๋Š” ๋ฐ์ดํ„ฐ์˜ ์ „์ฒด์ ์ธ ๊ฐœํ˜•๊ณผ ๋น„์Šทํ•ด์•ผํ•œ๋‹ค๋Š” ์ ๊ณผ Error๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” Method์˜ ์ ์ ˆํ•œ ์„ ํƒ์ด ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์œ„์—์„œ ๋ดค๋“ฏ์ด Linear Regression์—์„œ๋Š” ์ฃผ๋กœ LSM ์„ ์‚ฌ์šฉํ•  ํ…๋ฐ, ์ด์ œ๋Š” ์ด์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

โญ $Least\;Squared\;Method : Residual\;Sum\;of\;Squares\;(RSS)$

$for\;\;y = \hat{ฮฒ}_1x+\hat{ฮฒ}_0,$


$RSS=E_1^2 + E_2^2+...+E_{n}^2\;=(y_1-(\hat{ฮฒ}_1x_1+\hat{ฮฒ}_0))^2+(y_2-(\hat{ฮฒ}_1x_2+\hat{ฮฒ}_0))^2+...+(y_n-(\hat{ฮฒ}_1x_n+\hat{ฮฒ}_0))^2$


์œ„์˜ ์‹์„ ์ฒœ์ฒœํžˆ ์‚ดํŽด๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ, ๊ฐ ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์˜ Error์˜ ์ œ๊ณฑ์˜ ํ•ฉ์œผ๋กœ model์— ๋Œ€ํ•œ ์ „์ฒด Error๊ฐ€ ๊ตฌํ•ด์ง„๋‹ค.

์ตœ์ข…์ ์œผ๋กœ ์ด Error๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์•„์•ผ ํ•˜๋Š”๋ฐ, ๊ทธ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

โญ $Least\;Square\;Approach:\;Minimize\;RSS$

$\hat{ฮฒ}_1=\frac{\sum{(x_i-\overline{x})(y_i-\overline{y})}}{\sum{(x_i-\overline{x})^2}}$


$\hat{ฮฒ}_0=\overline{y}-\hat{ฮฒ}_1\overline{x}$


์œ„์˜ ์ˆ˜์‹์—์„œ $\overline{x}$์™€ $\overline{y}$๋Š” ๊ฐ๊ฐ ๋…๋ฆฝ๋ณ€์ˆ˜์™€ ์ข…์†๋ณ€์ˆ˜์˜ ํ‰๊ท ์„ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰ ์˜ˆ์ธก๊ฐ’์—์„œ ์›๋ž˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋นผ๋Š” ์—ฐ์‚ฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ์‹์€ ๋ณต์žกํ•˜์ง€๋งŒ, ๊ทธ ์˜๋ฏธ์™€ ์—ฐ์‚ฐ ๊ณผ์ •์€ ์ •๋ง ๊ฐ„๋‹จํ•œ ์›๋ฆฌ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์‚ฌ๋žŒ์ด ๋น…๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์ € ์—ฐ์‚ฐ์„ ํ•˜๊ธฐ์—๋Š” ์–‘์ด ๋„ˆ๋ฌด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ๋Š” ๋จธ์‹ ์„ ํ†ตํ•ด์„œ ์ด ๊ณผ์ •๋“ค์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. Linear Regression์€ ๋ธ”๋กœ๊ทธ์— ๋” ์ž์„ธํ•˜๊ฒŒ ์˜ฌ๋ ค๋‘์—ˆ์œผ๋‹ˆ ์•„๋ž˜ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค๐Ÿ‘๐Ÿ‘.

๐Ÿ“ ๋จธ์‹ ๋Ÿฌ๋‹ - Linear Regression ํฌ์ŠคํŒ… ๋ชจ์Œ


๐Ÿงฉ Linear Regression์„ ๋“ค์–ด๋ณธ ์ ์ด ์žˆ๋‹ค๋ฉด ์•„๋งˆ ๋Œ€๋ถ€๋ถ„ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๊ทธ ์ด๋ฆ„์„ ๋“ค์–ด๋ดค์„ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ์•ž์„œ ๋Œ€๋ถ€๋ถ„์˜ ํฌ์ŠคํŒ…์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹์€ ํ†ต๊ณ„ํ•™์ด๋‚˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์™€ ๊ด€๋ จ์ด ์žˆ๋Š” ํ•™๋ฌธ์ด๋‹ค. ๊ทธ๋ž˜์„œ ํ•˜๋‚˜๋ฅผ ์•Œ๋ฉด ๋‹ค๋ฅธ ํ•˜๋‚˜๋„ ์ดํ•ดํ•˜๊ณ , ๋˜ ๋‹ค๋ฅธ ํ•˜๋‚˜๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๊ทธ์•ผ๋ง๋กœ ๊ผฌ๊ผฌ๋ฌดํ•˜๋‹ค๋Š” ๋Š๋‚Œ์ด ๋“ค์—ˆ๋‹ค. ๊ทธ๋งŒํผ ์–‘์ด ๋งŽ๊ณ  ๋ฒ”์œ„๊ฐ€ ๋„“์ง€๋งŒ, ์ฐจ๊ทผ์ฐจ๊ทผ ๋”ฐ๋ผ๊ฐ€๋ฉด ์ดํ•ด๊ฐ€ ์–ด๋ ค์šด ํ•™๋ฌธ์€ ์•„๋‹ˆ๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค๐Ÿ™ƒ.

๐Ÿงฉ ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” object๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ• ์ค‘ ๋‘๋ฒˆ์งธ์ธ Nonparametric Method์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment