๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…๋ถ€ํ„ฐ๋Š” Dimensionality reduction์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณผ ๊ฒƒ์ด๋‹ค. ๋จผ์ € subset selection</a>์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.


1. Attribute Subset Selection ๊ฐœ๋…

๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” subset selection์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณผ ํ…๋ฐ, ๊ทธ๋Ÿฌ๋ฉด ์ด๊ฒŒ ๋Œ€์ฒด ๋ฌด์—‡์ธ๊ฐ€๋ถ€ํ„ฐ ๋Œ€๋žต์ ์œผ๋กœ ์•Œ๊ณ ๊ฐ€๋Š” ํŽธ์ด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. ์ด๋ฆ„์—์„œ ๋Š๊ปด์งˆ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ๋ฐ์ดํ„ฐ์˜ attribute์—์„œ ๋ช‡๊ฐ€์ง€๋ฅผ ์ถ”์ถœํ•ด์„œ ๊ทธ attribute๋“ค๋กœ ์ด๋ค„์ง„ subset, ์ฆ‰ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ์ฐพ๊ฒ ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. ์ด๋•Œ ์„ ํƒํ•˜๋Š” attribute๋“ค์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋ฉฐ, ์›๋ž˜ ๋ฐ์ดํ„ฐ์—์„œ ์ค‘๋ณต๊ฐ’์„ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ํ•„์š”์—†๋Š” ๊ฐ’์„ ์ œ๊ฑฐํ•˜๋Š” ๊ณผ์ •์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์›๋ณธ ๋ฐ์ดํ„ฐ์˜ dimensionality๊ฐ€ ์ค„์–ด๋“ ๋‹ค.

๐Ÿงฉ ๊ทธ ๋ฐฉ๋ฒ•์—๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค์ด ์žˆ๋‹ค.

๐Ÿ‘‰ ์ฒซ๋ฒˆ์งธ๋กœ Best Subset Selection๋ถ€ํ„ฐ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ!!


2. Best Subset Selection

๐Ÿงฉ 10๊ฐœ์˜ attribute๋ฅผ ๊ฐ€์ง€๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ์ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ best subset์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•ด์ง„๋‹ค.

  1. attribute๊ฐ€ ํ•˜๋‚˜๋„ ์—†๋Š” null model ์ƒ์„ฑ : $ฮผ_0$
  2. k = 1, 2,โ€ฆ, 10 ์— ๋Œ€ํ•ด์„œ ๊ฐ k์— ๋Œ€ํ•ด์„œ $_{10}C_k$์˜ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•จ
  3. k์— ๋Œ€ํ•ด์„œ $_{10}C_k$ ๊ฐœ์˜ ๋ชจ๋ธ์—์„œ ์ œ์ผ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ $ฮผ_k$์„ ํ•˜๋‚˜์”ฉ ์„ ์ •
  4. 3์—์„œ ๋งŒ๋“ค์–ด์ง„ $ฮผ_1, ฮผ_2,โ€ฆ,ฮผ_{10}$ ์ค‘์—์„œ ๋‹จ ํ•˜๋‚˜์˜ Best Model์„ ์„ ํƒํ•จ

๐Ÿ‘‰ ์š”์•ฝํ•˜์ž๋ฉด, ์›๋ณธ ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” subset์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  attribute ๊ฐœ์ˆ˜ ์กฐํ•ฉ์„ ๋ชจ๋‘ ์ƒ์„ฑํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ์œ„์—์„œ๋Š” attribute๊ฐ€ 10๊ฐœ์ธ ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃฐ ๋ฐ์ดํ„ฐ๋Š” ํ›จ์”ฌ ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์ผ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์—ฐ์‚ฐ๊ณผ์ •์ด ๋„ˆ๋ฌด ๋งŽ๋‹ค๋Š” ๋‹จ์ ์€ ๋”์šฑ ํฌ๊ฒŒ ๋‹ค๊ฐ€์˜จ๋‹ค. ๊ทธ๋ž˜์„œ ์ด๋ ‡๊ฒŒ ๋ชจ๋“  ๊ฒฝ์šฐ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ์ฒดํฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์•„๋‹Œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์ด ์ƒ๊ฒจ๋‚ฌ์œผ๋ฉฐ, ์ด ๋ฐฉ๋ฒ•์„ ๋ฐ”๋กœ Stepwise Selection์ด๋ผ๊ณ  ํ•œ๋‹ค.


3. Stepwise Selection

๐Ÿงฉ 1์ ˆ์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, Stepwise Selection์€ ์„ธ๊ฐ€์ง€ ์ข…๋ฅ˜๋กœ ๋‚˜๋ˆ ์ง„๋‹ค. ์„ธ๊ฐ€์ง€ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ๊ธฐ๋ณธ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋น„์Šทํ•˜๊ณ  ๋ชจ๋ธ์„ ๊ณ ๋ฅด๋Š” ๋ฐฉํ–ฅ์ด๋‚˜ ๋ฐฉ๋ฒ•๋งŒ ์‚ด์ง ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ์ฒซ๋ฒˆ์งธ ๋ฐฉ๋ฒ•๋งŒ ํ™•์‹คํžˆ ์ดํ•ดํ•˜๋ฉด ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„๋“ค์„ ์ดํ•ดํ•˜๋Š” ๋ฐ์— ์–ด๋ ค์›€์€ ์—†์„ ๊ฒƒ ๊ฐ™๋‹ค. ๋จผ์ € Forward Stepwise Selection์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿ™ƒ.

  • 1. Forward Stepwise Selection
    • Best Subset Selection๊ณผ ๊ฐ™์ด Null Model๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ attribute๋ฅผ ์ถ”๊ฐ€ํ•ด๋‚˜๊ฐ„๋‹ค.
    • Null Model $ฮผ_0$์— ํ•œ๋ฒˆ์— ํ•˜๋‚˜์˜ attribute๋งŒ์„ ์ถ”๊ฐ€ํ•ด๊ฐ€๋ฉด์„œ model์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
    • ๊ธฐ์กด์˜ ๋ชจ๋ธ์€ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ๊ฐ€๋ฉด์„œ ์ƒˆ๋กœ์šด attribute๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
    • ์ด๋•Œ attribute๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ณผ์ •์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋  ๋•Œ ๊นŒ์ง€๋งŒ ์ด๋ค„์ง„๋‹ค. ๋งŒ์•ฝ ์ถ”๊ฐ€ํ•œ ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋œ๋‹ค๋ฉด, ์ถ”๊ฐ€ํ•˜๊ธฐ ์ „์˜ ๋ชจ๋ธ์ด ์ตœ์ข… ๋ชจ๋ธ์ด ๋˜๋Š” ์…ˆ์ด๋‹ค.

๐Ÿ‘‰ ์•„๋ž˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด์„œ Best Subset Selection๊ณผ ๋น„๊ตํ•˜๋ฉด ์ดํ•ด์— ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ๋Š” ์ง€์ถœ๊ณผ ๊ฐ€์ •์— ๊ด€๋ จ๋œ ๋ช‡๊ฐ€์ง€ attribute๋ฅผ ํฌํ•จํ•˜๋Š” ๋ฐ์ดํ„ฐ์ด๋‹ค.

๐Ÿ‘‰ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด Stepwise Selection์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€ ์•Š์œผ๋ฉด ๋”์ด์ƒ์˜ ์„ ํƒ์„ ์ง„ํ–‰ํ•˜์ง€ ์•Š๊ณ , ๊ธฐ์กด์— ์„ ํƒ๋œ attribute๋“ค์„ ๊ณ ์ •ํ•ด๋‘” ์ƒํƒœ์—์„œ ๊ฐ€์ ธ๊ฐ€๊ธฐ ๋•Œ๋ฌธ์— local optimum์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ•ญ์ƒ ์ œ์ผ ์ข‹์€ ๋ชจ๋ธ์„ ๋ณด์žฅํ•  ์ˆ˜๋Š” ์—†์ง€๋งŒ, Best Subset Selection์— ๋น„ํ•ด ์—ฐ์‚ฐ๋Ÿ‰์ด ํ™•์—ฐํžˆ ์ค„์–ด๋“ค๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค.

๐Ÿงฉ ์ด์ œ ๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ Backward Stepwise Selection์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

  • 2. Backward Stepwise Selection
    • ์•ž์„  ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ Null Model์ด ์•„๋‹Œ ๋ชจ๋“  attribute๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” Full Model๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค.
    • Full Model์—์„œ ๊ฐ€์žฅ ์˜ํ–ฅ์„ ๋œ ์ฃผ๋Š” attribute๋ถ€ํ„ฐ ํ•˜๋‚˜์”ฉ ์ œ๊ฑฐํ•˜๋ฉด์„œ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
    • ์ด ๊ฒฝ์šฐ ์—ญ์‹œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋  ๋•Œ๊นŒ์ง€๋งŒ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด๋ค„์ง„๋‹ค.
    • ๋”ฐ๋ผ์„œ Local Optimum์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ‘‰ Forward Stepwise Selection๊ณผ Backward Stepwise Selection์„ ๋น„๊ตํ•ด๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ, ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ• ๋•Œ attribute๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š๋ƒ, ์‚ญ์ œํ•˜๋Š๋ƒ์˜ ๋ฐฉํ–ฅ์„ฑ์˜ ์ฐจ์ด์ผ ๋ฟ์ด๋‹ค. ์—ฐ์‚ฐ๋Ÿ‰์ด ์ ๋‹ค๋Š” ์žฅ์ ์„ ๊ฐ€์ง€์ง€๋งŒ, Local Optimum์— ๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š”, ์–ด๋–จ๊ฒŒ ๋ณด๋ฉด ์น˜๋ช…์ ์ธ ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋“ฑ์žฅํ•œ ๋ฐฉ๋ฒ•์ด ๋ฐ”๋กœ Heuristic Search ์ด๋‹ค.

  • 3. Heuristic Search
    • Best combined attribute selection and elimination
    • Forward์™€ Backward๋ฅผ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธ
    • Local Optimum ํƒˆ์ถœ

๐Ÿงฉ ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” dimensionality reduction ์ค‘์—์„œ๋„ feature extraction ๋ฐฉ๋ฒ•์ธ Subset Selection์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹์„ ๊ณต๋ถ€ํ•˜๋ฉด์„œ ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•์ด ๋‚˜์˜ค๊ณ  ๊ทธ ๋ฐฉ๋ฒ•์„ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•๋“ค์ด ๊ณ„์†ํ•ด์„œ ์ƒ๊ฒจ๋‚œ๋‹ค๋Š” ๋Š๋‚Œ์„ ๋ฐ›์•˜๋‹ค. ์–ด๋– ํ•œ ๊ฐœ๋…์„ ๊ณต๋ถ€ํ•  ๋•Œ ๊ทธ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ˆ˜์‹์ด๋‚˜ ์ด๋ก ์„ ์•„๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ, ๊ทธ ๊ฐœ๋…๊ณผ ๊ด€๋ จ๋œ ํ•˜๋‚˜์˜ ์Šคํ† ๋ฆฌ๋ฅผ ์•„๋Š” ๊ฒƒ์ด ์žฅ๊ธฐ๊ธฐ์–ต์—๋Š” ๋” ๋„์›€์ด ๋  ๊ฑฐ๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ์ด ๋ธ”๋กœ๊ทธ๋ฅผ ๋ณด๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ถ„๋“ค์ด ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์— ๋Œ€ํ•œ ๊ธฐ์ดˆ๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด์„œ๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š”๋ฐ, ์ด๋ ‡๊ฒŒ ์Šคํ† ๋ฆฌํ…”๋ง์— ์ง‘์ค‘ํ•ด์„œ ๊ณต๋ถ€ํ•˜๋ฉด ๋งŽ์€ ๊ฐœ๋…์„ ์ข€ ๋” ํšจ์œจ์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค๐Ÿ˜ƒ๐Ÿ˜ƒ.

๐Ÿงฉ ๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” PCA์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž๐Ÿƒโ€โ™‚๏ธ๐Ÿƒโ€โ™‚๏ธ.


๐Ÿ’ก์œ„ ํฌ์ŠคํŒ…์€ ํ•œ๊ตญ์™ธ๊ตญ์–ด๋Œ€ํ•™๊ต ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ๊ณตํ•™๋ถ€ ๊ณ ์œคํฌ ๊ต์ˆ˜๋‹˜์˜ [์ƒ๋ช…์ •๋ณดํ•™์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋งˆ์ด๋‹] ๊ฐ•์˜ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•จ์„ ๋ฐํž™๋‹ˆ๋‹ค.

Leave a comment