๐Ÿงฉ ์ €๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” Linear Regression์— ๋Œ€ํ•ด ๋ฐฐ์›Œ๋ณด์•˜๋‹ค. ์ด๋ฒˆ์—๋Š” Parametric Reduction์˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์ธ Nonlinear Regression์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.


1. Nonlinear Regression ์ด๋ž€??

๐Ÿงฉ ์šฐ๋ฆฌ๊ฐ€ ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋“ฏ์ด, Parametric Reduction ์—๋Š” linear regression๊ณผ nonlinear regression ์ด ์žˆ๋‹ค. ์ด๋•Œ Linear Regression์€ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์„ ๊ฒƒ์ด๋ผ๋Š” assumption ํ•˜์—์„œ reduction์ด ์ง„ํ–‰๋œ๋‹ค. ๋ฐ˜๋ฉด์— ์˜ค๋Š˜ ์‚ดํŽด๋ณผ Nonlinear Regression์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋น„์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ๋ฅผ ๊ฐ€์ •ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ฐจ์ด๋งŒ ์•Œ๊ณ  ์žˆ์œผ๋ฉด ๋’ค์— ์ด์–ด์งˆ ๋‚ด์šฉ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ์—๋Š” ์–ด๋ ค์›€์ด ์—†์„ ๊ฒƒ ๊ฐ™๋‹ค.

๐Ÿ“ Nonlinear Regression

- ๋น„์„ ํ˜•์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ๋ชจ๋ธ์„ ๊ฐ€์ •
- parameter๋ฅผ ๋‘ ๊ฐœ ์ด์ƒ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ
- ํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ๋ฅผ ์„ธ์„ธํžˆ ์„ค๋ช…ํ•˜๋Š” ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— overfitting (๊ณผ์ ํ•ฉ)์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ
- overfitting์— ์˜ํ•ด์„œ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ์ ์šฉํ–ˆ์„ ๋•Œ์˜ ์˜ˆ์ธก๋ ฅ์€ ๋‚ฎ์€ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Œ
- ๋‹คํ•ญ์‹์˜ ํ˜•ํƒœ๋กœ ๋ชจ๋ธ์ด ํ‘œํ˜„๋จ : polynominal regression

๐Ÿ‘‰ ์œ„์—์„œ ๋ช‡ ๊ฐ€์ง€ ํŠน์ง•์„ ์•Œ์•„๋ณด์•˜๋‹ค. ์š”์•ฝํ•˜์ž๋ฉด ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ†ตํ•ด์„œ ๋น„์„ ํ˜•์ ์ธ ๋ฐ์ดํ„ฐ๋„ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ชจ๋ธ์ด๋ผ๋Š” ๋œป์ด๋‹ค. ์ด์ œ ๋ชจ๋ธ์˜ ํ˜•ํƒœ๋ฅผ ์‚ดํŽด๋ณด์ž.

$y = \hat{ฮฒ_n}x^n + \hat{ฮฒ_{n-1}}x^{n-1} + ... + \hat{ฮฒ_2}x^2 + \hat{ฮฒ_1}x + \hat{ฮฒ_0}$


์œ„์™€ ๊ฐ™์ด ์—ฌ๋Ÿฌ ํ•ญ๋“ค์„ ํ†ตํ•ด์„œ ๋ฐ์ดํ„ฐ์˜ ๋น„์„ ํ˜•์„ฑ๊นŒ์ง€๋„ ์ „๋ฐ˜์ ์ธ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ํ•˜์ง€๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•œ๋‹ค๊ณ  ํ•ด์„œ ๋ชจ๋ธ์˜ ํ•ญ์˜ ๊ฐœ์ˆ˜๋ฅผ ์ง€๋‚˜์น˜๊ฒŒ ๋Š˜๋ ค๋ฒ„๋ฆฐ๋‹ค๋ฉด, ์œ„์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด overfitting์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก๋ ฅ์ด ๋‚ฎ์„ ์ˆ˜ ๋ฐ–์— ์—†๊ธฐ ๋•Œ๋ฌธ์— ์œ ์šฉํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ์ž˜ ์กฐ์ ˆํ•ด์„œ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ‘‰ ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…์€ ๋ฐฐ์› ์œผ๋‹ˆ, ์ด์ œ Nonlinear Regression์˜ ์ข…๋ฅ˜๋ฅผ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿ™ƒ.


2. Nonlinear Regression ์ข…๋ฅ˜

  • 1. Multiple Regression
    • ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ํ•˜๋‚˜์˜ attribute์— ๋Œ€ํ•ด์„œ regression์„ ํ•œ ํ›„์— ๊ฐ๊ฐ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋น„์Šทํ•œ ์˜ˆ์ธก๊ฐ’์„ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ๋ผ๋ฆฌ ํ•ฉ์น˜๊ฑฐ๋‚˜ ์—ฐ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์€ ๋ชจ๋ธ๋ผ๋ฆฌ ํ•ฉ์น˜๋Š” ๋ฐฉ์‹์„ ํ†ตํ•ด reduction์„ ์ง„ํ–‰ํ•จ
    • ํ•˜์ง€๋งŒ multiple regression์€ ๊ฐ๊ฐ์„ regression ํ•˜๊ธฐ๋ณด๋‹ค๋Š” y๋ผ๋Š” ์˜ˆ์ธก๊ฐ’์„ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ attribute๋ฅผ ์„ ํ˜•ํ•จ์ˆ˜๋กœ ์ทจ๊ธ‰ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ๋งํ•œ๋‹ค.
    • ์ฆ‰, ๋ฐ์ดํ„ฐ์˜ ๋น„์„ ํ˜•์„ฑ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ๋ชจ๋ธ์˜ ํ˜•ํƒœ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
$y=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+b$


๐Ÿ‘‰ ๊ทธ๋ฆฌ๊ณ  ์ด ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ error๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๊ณ„์‚ฐ๋œ๋‹ค. ๋‹น์—ฐํžˆ ์ด Error๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ผ์–ด๋‚œ๋‹ค.

$RSS=e_1^2+e_2^2+...+e_n^2=\sum(y_i-(\hat{ฮฒ_0}+\hat{ฮฒ_1}x_{i1}+\hat{ฮฒ_2}x_{i2}+...+\hat{ฮฒ_n}x_{in}))^2$


  • 2. Log-linear Model
    • ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๊ทธ ์Šค์ผ€์ผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
    • ์›๋ž˜ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ์—๋Š” ์ง€๋‚˜์น˜๊ฒŒ ํฐ ๊ฐ’์ด ์žˆ์œผ๋ฉด ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ๊ฐ’์€ ํ‘œํ˜„์ด ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋‚˜, ๋กœ๊ทธ ์Šค์ผ€์ผ์„ ์‚ฌ์šฉํ•˜๋ฉด ์ „๋ฐ˜์ ์ธ ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ์ด ์ค„์–ด๋“ค์–ด attribute๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ฐพ๊ธฐ๊ฐ€ ์‰ฌ์›Œ์ง„๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋Œ€์†Œ๊ด€๊ณ„์™€ ์—ฐ๊ด€๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ data reduction์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๐Ÿงฉ ์ด๋ ‡๊ฒŒ ํ•ด์„œ Parametric Data Reduction์„ ๋ชจ๋‘ ์•Œ์•„๋ณด์•˜๋‹ค. ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋‚ด์šฉ์ด๊ณ , ๊ฐ„๋‹จํ•œ ์ˆ˜ํ•™ ์ง€์‹๋งŒ์œผ๋กœ๋„ ๋ชจ๋ธ์˜ ํ˜•ํƒœ์™€ ๊ทธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ต์ง€ ์•Š์€ ๊ฐœ๋…๋“ค์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋ ‡๊ฒŒ ์—„์ฒญ ์ž์„ธํ•˜๊ฒŒ ๋‹ค๋ฃจ์ง€๋Š” ์•Š์•˜๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฐ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด๋ฅผ ์•Œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค๐Ÿ˜ƒ๐Ÿ˜ƒ.

๐Ÿงฉ ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” Numerosity Reduction์˜ ๋‹ค๋ฅธ ์ข…๋ฅ˜์ธ Nonparametric Data Reduction์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment